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征集 主题 

本 连载 正在 征集 最 近 大 家 关注 的 名 词 
和 今后 准备 研究 的 主题 。 如 有 兴趣 
请 发 邮件 至 sd@gihyo.co.jp。 


Open Cloud (I) | 


上 一 期 中 我 们 介绍 了 还 
渐 在 业界 普及 开 来 的 OpenCloud 
的 动 回 及 主要 的 平台 软件 。 本 
期 作为 上 期 的 续篇 ， 介 绍 一 
下 在 PaaS 层 和 网 络 层 的 平台 
rf 


Cloud Foundry 


Cloud Foundry 是 以 VMware 
公司 为 开发 主力 的 开源 的 PaaS 
平台 软件 。Cloud Foundry 不 仅 
能 作为 独立 的 软件 来 使 用 ， 而 
且 VMware 公 司 还 提供 了 使 用 
Cloud Foundry 搭 建 而 成 的 公共 
云 服务 CloudFoundry.com， 并 
且 还 把 VMware 虚拟 机 和 Cloud 
Foundry 环境 打包 成 一 个 名 为 
Micro Cloud Foundry 的 软件 。 

Cloud Foundry 的 架构 特征 
是 可 根据 功能 明确 区 分 各 个 组 
件 。 应 用 的 组 成 管理 、Web 服 
务 API 等 核心 功能 运行 在 被 称 
为 Cloud Controller 的 模块 上 。 
DEA (Droplet Execution Agent ) 
模块 提供 了 应 用 的 运行 环境 。 
外 部 请 求 经 过 Router 或 负载 均 
衡 分 发 给 合适 的 DEA。 在 应 用 
或 DEA 发 逢 未 知 错 误 时 ， 它 
具有 可 以 自动 重启 实例 的 恢复 
功能 。 

Cloud Foundry 的 使 用 许可 


是 Apache License 2.0， 支 持 的 
编程 语言 为 Rupy、Java、Nodejs、 
Scala、Erlang 等 ， 文 持 的 数据 
存储 为 PostgreSQL 、MYySQL、 
MongoDB 、Neo4j 、Redis 等 。 


OpenShift 


OpenShift 是 Red Hat 公 司 

PaaS 平 台 软 件 及 服务 的 总 2 
OpenShift 的 提供 形式 包含 : 
源 软件 OpenShift Origin; Red Hat 
公司 提供 的 PaaS 服务 OpenShift 
面 回 企业 的 PaagS 服务 
OpenShift Enterprise， 这 项 服务 
提供 商业 支持 的 预 置 OpenShift 
ES 

OpenShift 的 架构 大 致 由 
两 种 模块 构成 : 提供 应 用 部 署 
和 各 种 数据 的 存储 、 认 证 功能 
的 Broker; 托管 应 用 及 服务 的 
Node。Node 以 Gear 为 单位 ， 管 
理应 用 的 运行 环境 。Gear 的 最 
大 优势 在 于 其 可 以 自由 地 新 建 
或 删除 ， 因 此 可 以 根据 需要 灵 
活 扩展 环境 。 

OpenShift Origin 以 Apache 
License 2.0 的 形式 提供 , 支持 的 
编程 语言 为 Java、Ruby、Nodejs、 
Python 、PHP、Perl 等 ， 文 持 的 
数据 存储 为 PostereSQL、MySQL.、 
MongoDB 等 。 
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SDN/OpenFlow 


SDN (Software Defined 
Networking， 软 件 定义 网 络 ) 
是 使 用 软件 管理 网 络 组 成 技术 

的 总 称 ， 它 逐渐 成 为 在 构筑 云 
平台 时 不 可 或 缺 的 东西 。 其 中 ， 
开放 网 络 基 金 会 (ONF ) 推进 
标准 化 的 OpenFlow， 是 备 受 
瞩目 的 技术 。 

OpenFlow 的 网 络 就 是 由 
多 个 OpenFlow 交换 机 和 和 集中 
管理 这 些 交 换 机 的 OpenFlow 
控制 硕 组 成 的 。OpenFlow 控 
制 硕 定义 了 如何 计算 包 的 路 

径 以 及 收 到 包 后 的 处 理 方 式 。 
OpenFlow 交 换 机 基于 上 面 的 
定义 ， 进 行 包 的 传送 。 这 样 就 
不 用 逐个 对 交换 机 的 设置 进行 
a 只 要 设置 好 控制 器 ， 驳 
能 管理 整个 网 络 结构 了 。 

除了 OpenFlow 外 ，SDN 

还 有 Linux 基金 会 在 推进 的 
OpenDaylight 项 目 。 这 个 项 目 
意 在 在 SDN 里 构建 新 的 OSS 
平台 ， 它 将 不 仅 包 括 网 络 控制 
怖 ， 其 构想 还 将 吉 括 编程 界面 
和 网 络 协议 第 4 至 第 7 层 的 功 
能 ， 以 及 网 络 虚 拟 化 等 技术 。 
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外 ，， 


这 次 的 主题 是 电源 ， 我 们 将 对 断路 共和 签 
约 电力 等 进行 说 明 。™ 


全 什么 是 签约 电力 


当 用 电量 超过 了 与 电力 公司 签约 的 容量 ， 
电 路 此 会 落下 ， 即 跳 闻 。 这 个 断路 右 称 为 电流 
断路 器 ， 是 电力 公司 和 用 电 客 户 根据 用 电 合 约 
设置 的 装置 ， 当 回路 中 的 电流 超过 合约 规定 的 
安培 时 ， 上 断路 天 就 会 切断 供电 回路 。 一 般 来 说 ， 
最 大 供电 量 在 大 多 数 情况 下 是 固定 的 。 最 大 供 
电量 越 多 ， 基 本 费用 就 越 高 。 大 更 改 供电 合同 
规定 的 供电 量 ， 则 需要 更 换 电流 断路 器 。 根 据 
断路 器 的 颜色 或 标注 的 说 明 ， 或 者 查看 电力 公 
司 提供 的 账单 或 发 票 ， 都 可 以 了 解 最 大 供电 量 
是 多 少 ( 见 图 1 的 左 人 出， 最 大 供电 量 为 60A )。 

一 般 我 们 需要 根据 最 大 供电 量 ， 选 择 合适 
的 设备 。 在 搞 清楚 日 常生 活 需 要 多 少 用 电量 的 
前 提 下 ， 再 考虑 最 大 供电 量 应 该 为 多 少 。 同 时 
使 用 的 电力 必须 在 最 大 供电 量 的 范围 之 内 。 例如， 
独 大 日 常生 活 需 要 30A (安培 ) 左右 ; 和 家 人 一 
起 居住 的 独 栋 别墅 或 者 两 居室 公 寅 的 话 ， 一 般 
在 40A 到 60A 之 间 。 空调 、 电 吹风 、 微 波 炉 等 


中文 中 解说 的 是 日 本 的 人 情况， 与 中 国 的 实际 情况 有 所 不 同 ， 
请 读者 注意 。 一 一 编者 注 


自己 宗 的 诺 务 诲 机 内 
Tm ( 一 推 存 龟 


同时 使 用 时 如 有 果 出 现 跳 闻 ， 那 就 说 明 最 大 供电 
量 还 不 够 (安全 断路 融 跳 闸 的 情况 除外 ) 在 这 
种 情况 下 ， 就 需要 重新 考虑 用 电 方法 ， 并 提高 


和 电力 公司 签约 的 最 大 供电 量 了 。 

用 户 可 以 向 电力 公司 询问 它 能 够 提供 的 最 
大 供电 量 是 多 少 。 一 居室 的 情况 下 ， 由 于 供 
电 设 备 的 限制 ， 电力 公 司 一 般 只 能 提供 30A 到 
40A。 并 且 需 要 注意 的 是 ， 电 力 公 司 一 般 很 难 
向 公寓 住宅 提供 7kVA( 相 当 于 70A) 以 上 的 供 
电 ， 即 使 可 以 也 需要 额外 进行 电力 设备 施工 。 


届 什么 是 安全 断路 天 


可 能 大 家 有 过 这 样 的 经 历 : 一 个 插座 上 连 
接 的 电 融 过 多 ， 或 者 房间 的 墙 柄 上 连接 的 电 天 
过 多 时 ,就 容易 跳 闻 。 例 如 ， 一边 看 电视 一 边 
使 用 电 吹 风 和 电热 水 谈 的 时 候 ， 只 听 到 “ 听 ” 
的 一 声 增 插 的 供电 就 中 断 了 ,但 房间 的 照明 电 
路 仍 正 第 工作 。 其 实 ,， 这 是 安全 断路 融 跳 闸 
了 了 。 一 般 来 说 安全 断路 名 的 安全 电流 为 15SA 或 


a 


| 


者 20A， 这 个 数值 依赖 于 从 断路 需 到 插座 之 间 
的 电线 和 插座 的 具体 情况 。 

由 于 电线 也 存在 电阻 ， 电 流 流 过 的 时 候 会 
产生 热量 。 过 大 的 电流 会 造成 电线 发 热 ， 有 可 
能 引发 火灾 ， 所 以 需要 设置 安全 断路 器 ( 见 图 1 
右 侧 ， 每 一 个 回路 对 应 一 个 20A 的 安全 断路 器 )。 

根据 一 般 的 室内 设计 ， 厨 房 中 经 常会 摆 放 
冰箱 、 微 波 炉 、 电 人 饭 煲 等 大 用 电量 的 电器 ， 所 
以 多 数 情况 下 会 为 厨房 配备 一 路 独立 回路 。 同样 ， 
卫生 间 的 电路 也 是 独立 的 ， 因 为 考虑 到 会 在 其 
中 使 用 烘 干 机 、 洗 衣 机 等 。 另 外 ， 空 调 的 供电 
插座 一 般 是 独立 的 15A ~20A 的 回路 。 

没有 事先 设想 到 会 在 房间 的 墙 插 上 使 用 大 
功率 的 电器 ， 或 者 是 受 限 于 回路 的 数量 ， 将 多 
个 房间 的 墙 插 串 联 在 一 个 回路 中 ， 这 样 的 情况 
也 是 存在 的 ， 也 就 是 说 ， 没 有 以 房间 为 单位 配 
备 独立 的 供电 回路 的 情况 并 不 少见 。 要 搞 清 楚 
供电 回路 的 连接 , 可 以 将 照明 带 具 连接 在 插座 上 ， 
通过 开关 断路 器 来 确认 。 公 寓 的 供电 回路 一 般 
很 难 改 动 ， 所 以 选择 住宅 的 时 候 就 要 选择 供电 
回路 符合 要 求 的 房屋 。 有 时 , 如 果 客 厅 很 大 的 话 ， 
可 以 分 两 路 回路 来 供电 。 


人 应 该 如 何 处 理 服务 器 机 染 的 插座 ? 


比较 好 的 做 法 是 从 安全 断路 器 单独 引 一 回 
路 到 机 架 供电 ,这么 做 的 理由 是 为 了 尺 可 能 地 
减少 外 部 电路 对 服务 器 的 影响 ， 避 免 因 错误 地 
连接 电 融 导致 的 跳 曾 或 电压 下 降 ， 以 及 电 带 故 
隐 对 电路 产生 的 影响 等 。 

如 采 每 间 房 间 都 配 有 安全 断路 带 的 话 ， 那 
就 更 方便 了 ， 每 个 房间 使 用 一 条 回路 就 相当 于 
15A 的 专用 供电 。 并 且 ， 根据 房 屋 和 建筑 物 的 
不 同 ， 存 在 为 空调 专门 铺设 供电 线路 的 情况 。 
这 种 线路 能 够 承载 15A ~20A 的 电流 ， 但 需要 
证 总 大 是 硬 导 加 | 是 200N HR 


网 络 工程 师 修炼 手册 


白 己 家 的 恬 务 话机 淋 
之 推荐 篇 


第 3 回 机 架 的 电源 问题 (1) 

接着 ， 让 我 们 来 计算 一 下 机 架 上 放置 的 各 
类 设备 究竟 需要 消耗 多 少 电力 。24 口 或 者 48 口 
的 L2 交 换 机 一 般 在 100W 以 下 ， 家 用 上 网 设备 
一 般 在 10W 以下， 还 要 考虑 为 机 架 配 备 的 高 性 
能 L3 路 由 器 以 及 别 的 用 电 设 备 的 用 电量 。 网 络 
设备 的 耗 电 量 基本 符合 规格 说 明 ， 虽 然 最 近 为 
了 节约 能 源 出 现 了 将 不 使 用 端口 的 电源 关闭 的 
eco 模 式 , 但 它 不 会 像 服务 器 一 样 出 现 用 电量 
的 巨大 波动 ， 所 以 用 电量 还 是 比较 容易 计算 的 。 

近期 ,服务 器 的 电源 管理 有 了 长 足 的 改善 ， 
CPU 和 LO 根据 负载 情况 ， 用 电量 会 有 很 大 的 
变化 : 空闲 状态 下 测 出 的 功率 不 到 100W， 高 
负载 的 瞬间 功率 消耗 接近 200W， 这 样 的 情况 
并 不 少见 。 配 置 有 多 人 台 服 务 器 的 情况 下 ， 高 负 
载 时 断路 器 跳闸 也 是 很 有 可 能 的 ， 所 以 供电 量 
要 有 一 定 的 元 余 。 

运气 好 的 话 ， 不 需要 额外 的 施工 就 能 够 确 
保 一 间 房 间 30A 左右 的 供电 。 然 后 就 是 要 做 好 
电 需 的 接地 工作 。 一 般 家 用 的 插座 都 是 两 孔 ， 
很 少 有 接地 线 。 而 所、 厨房 的 插座 肯定 有 接地 线 ， 
空调 的 插座 一 般 也 有 接地 线 。 所 以 我 们 需要 将 
电器 正确 连接 插座 ,确保 电器 接地 。 


时 结 


一 般 来 说 日 常生 活 所 需 的 电力 在 20A 到 
30A 之 间 ， 网 络 设 备 和 服务 器 需要 长 时 间 工 作 
并 消耗 电力 ， 因 此 两 者 相 加 就 是 需要 向 电力 公 
司 申请 的 耗 电量 。 和 否则， 通常 一 两 个 半幅 机 架 
的 设备 运转 , 大 多 数 的 情况 下 会 出 现 供电 不 足 了 。 
如 果 继 续 配置 更 多 的 机 架 的 话 ， 那 就 变 成 只 能 
放置 设备 的 空 架子 了 。 

最 后 ， 需 要 注意 的 是 ， 断 路 器 和 电路 的 铺 
设施 工 需 持 有 “二 级 电气 工程 师 ” 的 资格 。 
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TURING 


图 灵 教 高 
ituring.cn 


玩 转 目 制 ， 目 我 进化 


从 零 开 始 该 计 和 实现 


+ 兼 共 趣味 性 、 实 用 性 与 学 习性 
+ 自己 动手 揭 开 计算 机 拉 术 的 神秘 面纱 


书 名 : 目 制 编程 语言 
书号 : 978-7-115-33320-9 


《 自制 编程 语言 》 手 把 手 地 教 
读者 用 C 语言 制作 两 种 编程 语言 : 
crowbar 与 Diksam。crowbar 是 运 
行 分 析 树 的 无 类 型 语言 ，Diksam 是 
运行 字 节 码 的 静态 类 型 语言 。 这 两 种 
语言 都 具备 四 则 运算 、 变 量 、 条 件 分 
支 、 循 环 、 函 数 定义 、 垃 圾 回收 等 功 
能 ， 最 终 版 则 可 以 支持 面向 对 象 、 异 
常 处 理 等 高 级 机 制 。 所 有 源 代码 都 提 
供 下 载 ， 读 者 可 以 一 边 对 照 书 中 的 说 
明 一 边 调试 源 代 人 码 。 这 个 过 程 对 理解 
程序 的 运行 机 制 十 分 有 帮助 。 


| 时 aas Cte 


本 书 用 Java 实现 了 一 个 Cu (一 种 C 语言 的 精简 版 ) 
的 编译 器 ， 可 以 将 Cu 程序 编译 为 Linux 上 原生 的 ELF 格 


式 可 执行 文件 。 
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自制 0 内需 编程 基础 


4 CPU 、 总 线 、 内 存 、IO 0 超 强 实践 性 
入 门 从 零 开始 设计 和 实现 CPU 组 合成 一 个 简单 的 计算 机 系统 从 硬件 到 软件 ， 统 统 自己 动手 
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POSTS & TELECOM PRESS 


书 名 : CPU 自制 人 门 
书号 : 978-7-115-33818-1 


《CPU 自制 入 门 》 利 用 FPGA,， 
为 读者 开局 了 一 个 新 新 的 目 制 CPU 
的 世界 。 全 书 分 为 3 章 ， 分 别 介 绍 计 
算 机 系统 最 底层 的 3 个 部 分 : CPU 
设计 制作 、 电 路 板 设 计 制 造 以 及 汇编 
编程 。 将 如 此 广泛 的 技术 内 容 以 实践 
的 万 式 融 合成 一 船 ， 该 书 可 谓 首 屈 一 
据 。 本 书 可 以 帮助 软件 工程 师 深 入 了 
解 硬 件 与 底层 ， 开 友 出 高 效 代 码 。 硬 
件 工 程 师 可 以 在 本 书 基础 上 设计 定制 
硬件 ， 开 发 高 速 计算 机 系统 。 


程 自 制 脚本 语言 


TURING 
程序 设计 以 书 


30: 自制 
控 作 系统 


书 名 : 30 天 自制 操作 系统 
书号 : 978-7-115-28796-0 


《30 天 上 自制 操作 系统 》 是 一 本 兼 
有 具 趣味 性 、 实 用 性 与 学 习性 的 书籍 。 
作者 从 计算 机 的 构造 、 汇 编 语言 、 
语言 开始 解说 ， 让 读者 在 实践 中 车 握 
算法 。 在 这 本 书 的 指导 下 ， 从 零 编写 
所 有 代码 ，30 天 后 残 可 以 制作 出 一 个 
具有 窗口 系统 的 32 位 多 任务 操作 系 
统 。 以 课题 为 主导 ， 边 做 边 玩 ， 抛 开 
星 深 难 懂 的 语言 ， 行 文风 格 十 分 随 性 ， 
还 充满 了 各 种 欢乐 的 吐 柳 ， 适 合 操 作 
系统 爱好 者 和 程序 设计 人 员 阅 读 。 
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这 是 一 本 绝 佳 的 编译 原理 入 门 书 。 本 书 从 编程 语言 的 
原理 讲 起 ， 从 零 开始 教 读者 在 Java 虚拟 机 上 按照 编译 过 
Stone， 并 深入 讲解 编程 语言 的 编译 机 制 | 。 
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文 / 安 胁 幸 央 Yukio Ando(EXA 公 司 ) 


Twitter: @yukio_andoh 
个 人 主页 : http:/www.andoh.org/ 


译 / 苏 讳 
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主题 演讲 中 
感受 到 的 未 来 蓝图 


美国 时 间 2013 年 5 月 15 日 至 
17 日 的 3 天 ，Google WO 2013 开 
发 者 大 会 在 旧金山 召开 。Google 
IO 是 面 回 开发 者 的 大 会 ， 针 对 
Google 的 各 项 技术 设 有 多 个 分 会 
场 。 大 会 今年 吸引 了 6000 人 ,是 
会 场所 能 容纳 的 最 多 人 数 ， 世 界 
各 地 通过 网 络 收看 或 收听 的 参加 
者 超过 了 100 万 人 。 今 年 的 分 会 场 
数量 达到 189 人 个， 展台 170 个 , 均 
超过 了 去 年 的 水 平 。 如 此 规模 的 
大 会 ,不 仅 吸 引 了 硅谷 周边 的 开 


发 者 们 ， 更 吸引 了 很 多 来 目 欧 洲 、 
亚洲 等 地 的 参加 者 。 

如 采用 一 个 词 来 概括 对 今年 
大 会 的 印象 ,“ 踏 实 ” 比 “华丽 ” 
更 为 合适 。 在 首 日 的 主题 演讲 中 ， 
可 使 现在 生活 更 加 便利 的 踏实 而 
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此 次 会 声 的 Moscone 中 心 。 
的 Pin 的 设计 也 更 新 了 。 


书 


二 芭 


Maps 


又 明晰 的 新 技术 以 及 技术 的 改 民 
得 到 突出 ， 而 那些 华丽 的 未 来 技 
术 退 居 其 次 。 

大 多 开发 者 原本 期 得 的 Android 
话题 在 整体 中 占 的 比例 较 低 (之 后 
再 详 述 )， 而 去 年 在 Google IO 上 
成 为 焦点 的 眼镜 式 容 戴 设备 莱 相 
机 的 Google Glass， 又 在 今年 以 另 
一 种 形式 成 为 了 热点 。 

会 场 中 , 除了 Google 公 司 的 
员工 外 ; 已 有 许多 其 他 人 佩 蔗 了 
Google Glass。 他 们 是 在 去 年 的 
Google IO 上 预约 购买 ， 并 迅速 拿 
到 手 的 用 户 。 但 是 在 主题 演讲 中 ， 
并 没有 提 到 任何 与 Google Glass 相 
关 的 话题 ,似乎 让 人 感受 到 Google 
的 声音 检索 及 Google Now 的 进化 
是 推广 Google Glass 前 置 的 两 步 棋 。 
给 人 的 整体 感觉 是 ，Google Glass 
还 未 做 好 进军 大 众 市 场 的 准备 ， 硕 
望 开发 者 能 来 扩充 其 服务 内 容 。 


@ 会 场 入 口 处 巨大 的 Google I/O 标 志 。 


在 主题 演讲 的 最 后 ， 因 声带 
疾病 而 在 疗养 中 的 Google CEO 拉 
里 . 佩 奇 登场 ， 让 一 直 担 心 的 大 家 
放下 心 来 。 他 用 稍 显 沙 旺 的 声音 ， 
缓慢 地 加 现场 观众 说 道 : ”和布 望 不 
要 总 拿 Google 与 其 他 公司 比较 ， 
我 真 地 不 觉得 有 趣 。 不 能 因为 消 
极 的 态度 阻碍 了 人 们 获得 新 的 成 果 。 
我 们 应 当 创 新 ,并非 每 一 项 新 技 
术 都 是 稚 和 博弈 。 

这 次 主题 演讲 中 发 布 的 内 容 ， 
与 其 说 是 创新 , 不 如 说 是 对 既 存 
产品 的 延伸 。 从 侧面 上 也 可 以 看 
出 Google 作为 一 家 公司 将 人 力 和 
资金 都 投 癌 了 能 确实 获取 利益 的 
方面 ， 特 别 集中 在 以 Google Maps 
为 开端 的 GEO (地 图 及 位 置信 息 关 
联 ) 的 改进 及 推广 。 


在 会 场 进行 的 传感器 实验 


此 次 Google IO 大 会 初次 尝试 


Google 街 景 的 摄影 器 材 。 
( 左 ; 适用 于 山地 ; 右 ， 适用 于 海底 ) 


在 Google /MO 2013 开 发 者 大 会 上 出 现 的 数码 设备 


了 在 会 场 中 铺设 传 感 硕 网 络 。 这 
是 由 Google Cloud 团 队 与 O’ Reilly 
Data Sensing Lab 共同 为 此 次 大 
会 制作 的 系统 。 基 于 开源 人 硬件 
Arduino 的 525 台 环 境 传 感 器 遍布 
会 场 各 个 角落 。 为 保障 各 个 环境 
传 感 希 之 间 的 数据 通信 ， 构 建 了 
以 XBee 为 基础 的 Mesh 网 络 。 该 
实验 是 把 传 感 旧 中 暴露 在 外 的 主 
板 ， 与 Google Cloud Platform 的 软 
件 连接 ， 将 会 场 中 的 温度 、 湿 度 、 
声音 分 贝 、 楼 层 的 震动 、 空 气质 量 、 
灯光 亮度 等 信息 作为 数据 收集 并 
实现 可 视 化 。 

比如 说 ， 奉 和 硕 望 在 会 场 中 小 
本 一 下 ， 或 打 一 个 电话 时 ， 就 可 
以 使 用 它 来 查找 安静 的 场所 。 这 
个 实验 使 得 Google”“ 整 合 全 球 信息 ， 
使 人 人 皆 可 访问 并 从 中 受益 ”的 使 
命 变 得 更 为 现实 具体 。 


围绕 Android 的 状况 


主题 演讲 中 ，Google 发 布 了 
Android 软件 的 新 开发 环境 Android 
Studio, 它 是 以 大 家 部 知 的 Java 
开发 环境 IntelliJ 为 基础 搭建 的 。 
虽然 Android 的 生态 环境 变 得 越 
来 越 巨 大 ,但 胜 者 与 败 者 却 已 被 
明确 划分 开 来 。 尽 管 如 此 ， 现 在 
的 胜 者 并 非 一 务 永 和 逸 ， 不 知 不 觉 
被 后 来 者 赶 上 也 不 是 一 件 新 余 的 
事 。 并 且 ，Android 设 备 的 人 硬件 、 
0OS、 软 件 、 框 民 、 用 户 界 面 等 有 
素 的 复杂 结合 ,使 得 单纯 通过 软 


件 去 创造 一 些 新 的 内 容 变 得 更 
加 复杂 。 

另外 ,虽然 此 次 大 会 并 没有 
明确 表达 ,但 是 可 以 感受 到 的 是 ， 
尽管 现在 Android 的 身影 随处 可 见 ， 
但 今后 (原生 的 )Andorid 应 用 将 逐 
步 消 失 。 这 也 可 以 从 Google 内 部 
的 人 事变 动 看 出 来 。Android 部 门 
的 负责 人 从 原来 的 Andy Rubin 变 
成 了 负责 Chrome 的 Sundar Pichai。 

虽然 不 会 是 近期 , 但 未 来 
Android 很 可 能 被 集合 了 Web 应 
用 与 浏览 套 的 Chrome OS 统治 。 
此 次 的 Google WO 大 会 中 ,对 于 
Chrome Packaged Apps 及 Web 组 
件 的 呼声 也 很 大 , 浏览 带 未 来 将 
可 能 作为 操作 环境 , 成 为 类 似 
Chrome Runtime 的 定 位 。Java 诞 
生 以 来 ， 大 家 都 在 追求 一 种 梦想 ， 
试图 让 各 种 技术 在 任何 环境 中 都 
可 以 运作 ，Web 应 用 与 Chrome 似 
乎 也 开始 追求 这 个 目标 。 


巨大 的 会 场 与 趣味 横生 的 
各 种 会 议 

189 个 分 会 场 会 议 将 Google 的 
各 种 技术 详细 介绍 给 开发 者 、 工 
程 师 和 设计 师 。 今 年 Chrome/Web 
关联 的 会 议 非常 多 。 会议 的 内 容 
不 仅仅 是 讨论 Web 及 Android 智 能 
手机 用 户 界 面 的 制作 方法 、 思 考 
逻辑 等 ,还 延伸 到 在 这 背后 的 认 
知心 理学 应 用 方法 、 车 载 应 用 的 
展开 等 更 广 更 次 的 层次 。 


SI 


Google IO 大 会 之 后 各 个 会 议 
的 视频 立即 在 YouTube 上 公开 。( 配 
合 英 文字 幕 可 以 更 好 地 理解 ， 也 
可 以 通过 机 融 翻 译 查 看 日 语 字 硕 。) 
Google VO 会 议 视 频 一 虹 : 


https://developers.google.com/ 
live/io/ 


1 层 至 3 层 的 巨大 会 场 比 想 象 
的 还 要 大 , 除了 展台 以 外 ,还 有 
可 供 放 松 休息 的 区 域 ， 以 及 可 以 
直接 向 Google 开 发 者 提问 的 “ 工 
作 时 间 ” 等 供 开 发 者 们 互相 交流 的 
场所 。 


Goodgle 的 厢 ; 


在 Google IO 大 会 上 ， 设 有 一 
些 场所 ， 可 以 回 在 Google 工 作 的 
人 (他 们 被 称 为 Googler) 询问 现场 
的 情况 ， 也 可 以 在 “工作 时 间 ” 直 
接 提问 ， 或 提出 目 己 的 意见 。 

我 们 了 解 到 ,在 Google 这么 
多 的 有 知识 、 有 人 能力 的 人 ， 其实 
就 是 在 专业 的 环境 下 ， 游 也 有 余 
并 且 高 效 地 做 着 极其 普通 的 事情 ， 
并 没有 什么 特别 的 魔法 。 但 是 
Google 人 才 众 多 ， 大 家 见识 极 广 ， 
令 人 敬佩 不 已 。 各 路 专家 齐 聚 一 符 ， 
营造 出 可 以 不 断 创 造 新 内 容 并 解 
决 问题 的 环境 ， 而 且 可 以 一 直 维 
持 着 这 种 氛围 。 


更 广泛 的 活跃 空间 


此 次 大 会 令 人 印象 深 刻 的 是 ， 
除了 现在 已 有 的 众多 服务 与 先进 
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技术 外 ， 还 有 许多 未 能 开拓 出 的 
点 和 必须 解决 的 诛 题 。 日 本 的 开 
发 者 及 设计 师 可 以 挑战 的 课题 和 
发 挥 的 空间 也 还 很 多 。 但是, 与 
世界 科技 发 展 的 广度 、 深 度 以 及 
言 息 的 速度 相 比 的 话 ， 我们 还 十 
分 落后 。 

把 自己 定位 为 工程 师 还 是 设 
计 师 ， 这 样 的 区 分 是 没有 意义 的 。 
工程 师 也 需要 学 习 设 计 相关 的 知识 ， 
而 设计 师 也 可 能 要 写 代 码 。 最 初 
可 能 两 者 都 无 法 达到 很 高 的 水 准 ， 
但 通过 不 断 的 努力 ,将 会 有 一 天 
能 越过 以 往 无 法 翻越 的 高 墙 。 工 
程 师 可 能 无 法 创造 出 一 流 的 视觉 
设计 ， 但 会 更 加 理解 设计 师 的 内 
心 想 法 及 坚持 的 信念 。 设 计 师 可 
能 无 法 写 出 一 流 的 代码 , 但 也 能 
理解 工程 师 的 感受 及 逻辑 。 这 样 
的 相互 理解 与 沟通 的 效果 是 巨大 的 ， 
它 能 使 有 广泛 技能 的 专业 人 才 获 
得 更 广泛 的 活路 空间。 

Google IO 大 会 等 各 种 面 问 
开发 者 的 大 会 ,都 会 立即 把 各 种 
消息 公开 在 网 上 。 但 还 有 许多 事 
情 ， 如 智能 手机 和 平板 电脑 在 人 
们 的 生活 中 得 到 了 很 广泛 的 使 用 ， 
特别 在 美国 的 城市 地 区 ，Google 
Maps、Foursquare 、Facebook 都 
已 经 深 深 扎根 于 日 第 生活 中 ， 这 


流 


是 
今年 的 Google IO 大 会 的 确 非常 


Dont mind me, Im only 
e 


会 场 的 525 个 角落 设置 了 
主板 外 置 的 环境 传感器 。 
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NVIDIA SHIELD Rethink Robotics 
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Google 
Chromebook Pixel Oculus VR 


http://www.google.com/intV/ja/chrome/ 
devices/chromebook-pixel/ 
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Threshold 


/> 阅 值 是 什么 


用 杯子 从 自来水 管 接 水 ， 水 会 积存 在 杯 
子 里 。 在 水 溢出 杯 口 之 前 ,杯子 外 面 不 会 湿 。 
一 旦 溢出 ， 杯 子 外 面 就 会 湿 掉 (图 1)。 这 次 我 
们 谈论 的 ， 就 是 和 这 个 现象 有 关 的 话题 。 

国 值 (Threshold) 是 指 : 在 超出 这 个 值 以 前 ， 
什么 都 不 会 发 生 ， 超 过 了 这 个 值 ， 就 会 发 生变 
化 和 反应 的 一 个 值 。 以 图 1 的 杯子 为 例 ， 不 会 
弄 湿 杯 子 外 面 、 能 在 杯子 中 保存 的 水 量 就 是 国 值 。 

市 有 净值 事物 的 输入 (Input) 和 输出 (Ouput) 
的 关系 ， 可 以 用 图 2 来 表示 。 在 输入 超出 靖 值 
以 前 ， 不 会 有 任何 输出 。 


V 图 1 用 杯子 表示 的 国 值 示意 图 


No 
Input Omput Input Output 


Threshold 


/ 数字 化 和 阐 值 


计算 机 是 一 种 使 用 开 (ON) 和 关 (OFF) 
两 种 状态 进行 计算 的 数字 设备 ， 这 个 开 和 关 ， 
在 计算 机 内 部 是 使 用 电压 来 表示 的 。 为 了 将 模 
拟 信号 的 电压 ， 转 换 处 理 成 数字 的 开 和 关 ， 就 
要 用 到 浆 值 。 也 就 是 说 ， 如 果 超 出 某 个 值 ， 就 
当成 开 (ON ) 处 理 ; 如 果 没 有 达到 这 个 值 ， 就 
当成 关 (OFF ) 处 理 ， 这 个 值 就 是 一 个 阔 值 。 


/> 两 个 阐 值 


在 达到 靖 值 以 前 ， 输 入 的 变化 对 于 输出 没 
有 任何 影响 。 但 是 ， 当 输入 达到 浆 值 附近 时 ， 
输入 的 波动 将 会 影响 输出 。 


V 图 2 市 有 辣 值 事物 的 输入 和 输出 的 关系 


Threshold 


No Output 


比方 说 ， 识 别 开 关 的 浆 值 是 0.5SV， 如 果 
电压 一 直 在 0.5V 附 近 上 下 波动 ， 与 此 相对 的 
数字 值 也 会 在 开 和 关 之 间 波动 ， 如 图 3 所 示 。 

为 了 防止 输出 不 稳定 ,我们 可 以 设置 “ 关 
变 成 开 ” 和 “ 开 变 成 关 ” 两 个 阔 值 。 这 样 ， 效 
值 就 可 以 在 开 和 关 之 间 保持 稳定 ， 而 不 会 波动 ， 
如 图 4 所 示 。 这 样 即使 输入 不 稳定 ， 输 出 的 波 
动 也 会 减 小 了 。 


/二 情感 表达 的 阐 值 


个 人 情感 的 外 露 似 乎 也 存在 国 值 ， 这 就 是 
情感 表达 的 国 值 。 对 一 个 人 而 言 ， 压 力 、 工 作 
量 可 认为 是 输入 , 情感 的 外 露 可 以 认为 是 输出 。 

处 耐力 强 的 人 (情感 表达 国 值 台 的 人 )， 
即使 压力 很 大 也 不 会 把 日 己 的 情感 挂 在 脸 上 ， 
但 是 八 耐 力 低 的 人 《情感 表达 国 值 低 的 人 小 
稍 有 压力 ， 就 马上 能 从 脸 上 看 到 。 

当然 ,情感 表达 羡 值 高 些 好 还 是 低 些 好 ， 
不 能 一 概 而 论 。 妨 耐力 强 的 人 , 干 起 活 儿 来 


V 图 3 输入 波动 对 输出 的 影响 


Threshold -. NA 人- 


结 城 浩 ( Hiroshi Yuki ) 


雷厉风行 ,但 是 别人 很 难 了 解 这 个 人 真正 的 
状态 如 何 。 


/> 拐点 阔 什 


在 商品 销售 上 ， 有 种 现象 称 为 抛 点 。 刚 开 
始 在 宣传 上 不 断 投 入 成 本 (输入 ), 但 是 销售 ( 输 
出 ) 一 直上 不 去 。 但 是 ， 在 茶 个 时 间 点 销售 会 
突然 激增 。 这 个 抛 点 可 以 说 就 是 国 值 。 

因为 有 国 值 的 存在 ， 所 以 输出 不 会 随 肴 输 
入 的 变化 而 变化 。 如 果 想 尽早 知道 ， 察 觉 变 化 
的 话 ， 需 要 降低 闪 值 ， 或 者 观察 中 间 性 的 输出 。 
例如 ， 在 销售 实现 输出 前 ， 看 看 Web 页面 的 页 
面 点 击 数 ， 调 碍 闲谈 中 谈 及 商品 的 次 数 等 中 间 
性 的 输出 。 


人 SS 


你 的 号 边 有 没有 可 以 称 为 国 值 的 东西 ? 它 
的 输入 和 输出 都 是 什么 ?请 试 着 思考 一 下 了 吧 。 


V 图 4 用 两 个 国人 防止 输出 流动 


Threshold 
(OFF 一 ON) 


Threshold 
(ON 一 OFF ) 


Output / 


生 于 1963 年 , 日 本 资深 技术 作家 和 程序 员 。 在 编程 语言 、 


设计 模式 、 数 学 、 加 密 技术 等 领域 ， 编 写 了 很 多 深 受 


欢迎 的 入 门 书 。 代 表 作 有 《 数学 女孩 》 系 列 、《 程 序 员 的 数学 》 等 。 


作者 网 站 : http://www.hyuki.com/ 


在 秋 叶 原创 建 NASA 


当 田 中 谅 开始 制作 日 后 被 称 做 enchant.js 
的 时 候 ， 我 正和 近藤 诚 、 钴 田 浑 二 、 过 秀美 一 
起 前 往 旧 金山 ， 伏 见 辽 平 已 于 先期 到 达 。 我 
们 的 目的 是 参加 被 称 为 GDC(Game Developer 
Conference ) 的 游戏 开发 者 大 会 。 


人 


这 一 天 清晨 ,我 们 在 京成 线 的 上 野 站 会 合 ， 
乘坐 开 往 机 场 的 光线 号 (skyliner) 电车 。 刚 刚 
上 车 不 入 ， 近 有 匠 就 对 我 半 开 玩笑 似 地 说 :“ 清 
水 先生 , 这 次 我 们 在 飞行 途中 , 该 做 些 什么 呢 ?” 

说 来 话 长 ， 那 时 近 蔷 还 是 学 生 ， 他 在 我 们 
这 里 兼职 。 在 前 往 旧 金山 参加 MacWorld 的 飞 
机 上 上 ， 他 中 了 我 的 激 将 法 ， 当 场 奋起 ,编写 应 
J i TE one 
ipad 上 ， 能够 体验 使 用 毛笔 书写 的 乐趣 。 结 果 ， 
WT eS HE 
pe 

飞机 一 抵达 旧金山 ， 我 们 就 再 接 再 历 、 一 
囊 作 气 , 使 用 “i 书 道 ” 的 名 字 正 式 发 布 了 这 
球 应 用 。 随 后 的 反 咽 也 很 令 人 满意 ,，“i 书 道 ” 
不 仪 在 日 本 的 新 年 期 间 ， 跃 居 App Store 排行 
第 1 名 。 后 来 ， 还 被 Apple 的 广告 采用 了 ,其 
LOGO“ 书 ”在 世界 范围 内 的 Apple Store 中 受 
人 瞩目 。 说 到 这 个 “ 书 ” 的 LOGO， 奢 是 我 在 
oN 
性 与 出 米 的 呢 。 


也 许 正 是 因为 有 这 样 一 个 故事 ， 所 以 近藤 
才 开 了 一 个 “这 次 再 做 些 什么 好 玩 的 ”的 玩笑 
吧 ? 我 当时 正在 关注 HTML5 的 种 种 可 能 性 ， 
就 干脆 顺水 推 请 ,， 提 了 一 个 有 些 疯 狂 的 奇特 


方案 : 

“这 次 的 出 差 人 员 都 是 UEI(Ubiquitous 
Entertainment Inc)( 本 文 作 者 清水 亮 的 公司 ) 
中 最 顶级 的 程序 员 ， 我 们 来 比 一 比 ， 看 谁 能 在 
8 个 小 时 的 飞行 途中 开发 出 10 个 游戏 ! ” 

| 

我 平时 一 直 喜 欢 只 动 嘴 说 大 话 ， 但 这 次 也 
许 不 应 临阵 逃脱 。 虽 然 有 “ 败 下 阵 来 、 颜 面 尽 失 ” 
的 风险 , 但 我 的 自体 心 还 是 使 我 奋起 迎接 挑战 。 
“ 那 还 用 说 嘛 , 我 当然 参加 啦 。 现 在 就 开始 比赛 ， 
结束 时 间 就 是 飞机 着 陆 那 一 刻 !” 

我 一 声 令 下 ， 所 有 人 都 开始 编写 程序 了 。 
蜀 瞧 企 : 作为 中 副 的 宁 舍 汪 要 二 鸡 克 十 Ji 
当 我 编写 到 第 6 个 游戏 时 ， 革 果 电 脑 的 电池 耗 
尽 了 。 真 是 很 不 甘心 啊 。 结 果 ， 这 场 比 赛 ， 谁 
也 没 能 写 完 10 个 游戏 。 

我 们 意犹未尽 ， 后 来 进行 了 第 2 次 比赛 ， 
目标 是 “12 个 小 时 内 完成 10 个 游戏 的 开发 ”。 
这 样 的 比赛 就 叫做 “程序 员 的 短跑 冲刺 赛 ! “其 
中 ， 这 场 在 飞行 途中 的 突 发 性 比赛 ， 被 我 们 冠 
名 为 “ 环 太平 洋 上 空 的 迷你 游戏 开发 奥林匹克 ”， 
比赛 的 视频 也 都 发 布 到 了 互联 网 上 9 ) 


CD http://www.youtube.com/watch?v=Z6B5bgWtPew 


~ 


此 次 比赛 (第 2 次 比赛 ) 我 成 功 完成 了 13 
个 游戏 的 开发 。 不 过 ， 之 后 我 没有 再 参加 ， 而 


伏 见 辽 平 在 旧金山 和 我 们 会 合 后 ， 却 投入 了 比 
赛 。 对 于 本 职工 作为 策划 的 广 秀美 ， 我 曾 不 假 
思索 、 信 口 开 河 地 说 :“ 我 来 教 你 ,你 也 来 编 
写 游戏 吧 。” 结 果 第 2 天 ， 坟 秀美 便 完成 了 一 款 
相当 不 错 的 游戏 ! 

随 着 “程序 员 短 跑 冲 刺 赛 ”的 多 次 进行 
各 种 新 奇 的 构思 不 断 涌现 出 来 , 着实 令 人 惊喜 。 
特别 是 馈 田 淳 二 那些 奇 奇怪 怪 、 菲 夷 所 思 的 想 
法 ， 经 常 让 众人 爆笑 不 止 。 伏 见 则 以 非 几 的 技 
巧 ， 开 发 了 高 水 平 的 游戏 。 

实在 是 太 开心 了 ! 编写 程序 的 这 种 爽快 劲 
儿 ， 我 好 久 没 有 体会 到 了 。 从 构思 到 编程 ， 与 
大 家 分 享 ， 获 得 大 家 的 肯定 ， 最 后 收获 了 欢笑 
和 喜悦 。 
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一 一 一 一 


如 同 NICONICO 视 频 一 样 ，GDC 大 会 是 
一 个 可 以 自由 发 表 原 创 游戏 的 地 方 。 只 要 是 
投稿 的 游戏 ， 就 可 以 让 朋友 们 和 自己 一 起 来 
玩 ， 也 是 一 个 自由 交流 感想 的 好 地 方 。 而 使 用 
HTMLS, 让 这 一切 更 具有 可行 性 ，。 特 列 是 在 
智能 手机 上 ， 尤 为 简单 。 

回国 之 后 ， 我 也 要 举办 这 样 的 活动 。 要 让 
更 多 的 人 了 解 编程 的 快乐 ， 如 果 能 让 程序 员 成 
为 大 家 心目 中 的 英雄 ， 那 将 是 一 个 多 大 的 飞 
跃 啊 。 

想到 这 里 ,我 的 脑海 中 浮 
BD | leap, 
意思 是 “飞跃 ”"。 如 果 直 接 使 用 
leap 进行 商标 注册 有 点 困难 。 
于 是 ,我 准 伯 TN 二 个 效 
字 9, 改 为 9leap。 这 个 9 也 是 
有 售 义 的 ， 当 数 罕 9 加 上 1 后 ， 
数字 就 会 进 二 位。 这 意味 着 无 


_ 一 于 DN i 
天 口 了 叉 ， 三 一作 


了 


8/| \ 


一 上 ! 轴 太太、 pi 


寺内 开发 制作 出 的 游戏 ，High & Low( 左 ), 3D 游 戏 ( 右 ) 
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论 是 谁 ， 只 要 从 后 面 推 他 一 把 ， 就 可 使 其 产生 
巨大 飞跃 。 而 leap 也 是 Leaders Education and 
Achievement Program 的 缩写 ， 意 味 “ 以 精英 教 
育 与 成 功 。 

后 来 ， 我 的 这 个 想法 得 到 了 D2C 公 司 ( 电 
通 与 NTTDOCOMO 的 合资 子 公 司 ) 的 认可 ， 
我 们 约定 由 他 们 来 提供 局 动 资 金 。 


关 


咱们 再 把 话题 转 到 去 美国 出 差 时 。GDC 大 
会 之 后 ， 我 和 过 秀美 告别 了 其 他 成 员 ， 前 往 德 
克 陛 斯 州 的 奥斯汀 。 在 那里 ， 我 们 将 和 公司 的 
另外 一 些 员工 会 合 ， 参 加 South By Southwest 
(CSXSW，, 西南 侦 南 大 会 ) 这 一 美国 最 大 的 音乐 、 
电影 以 及 互联 网 感 会 。 

当时 是 井口 尊 仁 先生 邀请 我 们 参加 这 个 
活动 ， 我 们 才 临 时 起 行 的 。SXSW 是 极 宦 盛 名 
的 大 会 ，Twitter 和 Foursquare 都 是 在 这 里 一 炮 
2E 辣 几 本 州 加 有 ， 司 几 区 人 和 
现 RI Zentonad 
FOLIO 产 品 ， 一 个 配备 了 强大 的 记录 和 编辑 应 
用 功能 的 电子 画板 。 它 的 基础 是 NEC 尚 在 开 
发 中 的 LTEW， 它 有 着 双 画 面 ， 使 用 安 章 系统 。 
这 次 参展 时 ，Zeptopad FOLIO 还 处 于 原型 机 
亲本 下 二 SE 0 
癌 的 开发 策划 和 功能 设计 工作 。 这 款 产 品 ， 也 
彰显 着 我 的 信念 ， 我 要 创造 出 新 一 代 的 “笔墨 
纸 砚 ”笔记 工具 )。 

路 SXSW 大 会 开始 还 有 少许 时 间 ， 我 乘坐 
游船 ， 骑 上 两 轮 电 动车 ， 漫 游 于 奥斯汀 市 。 在 


0 和 铭 冯 了 十 力 了 力 玫 直 2 
) 众 7 v 4 
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Ce nCh ant ~ 激发 创造 力 的 魔法 ~ 


这 段 闲 眼 时 光 中 ,这 个 计划 的 整体 构思 渐渐 
明明 。 

正当 我 沉浸 在 这 新 奇 的 构想 中 ， 激 动 得 热 
血 沸 腾 之 时 ,在 我 深 爱 的 祖国 (日 本 )， 发 生 
了 一 件 百 年 不 遇 的 事情 。 


| 


傍晚 ， 我 正在 旅 迄 房间 中 看 电视 ， 突 然 播 
放 了 一 条 爆炸 性 新 闻 。 我 紧 果 着 屏幕 ， 不 敢 相 
信和 眼前 的 画面 : 日 本 发 生 了 大 地 震 ， 地 震 引 起 
的 海啸 将 日 本 东北 地 区 毁灭 至 尽 ! 

我 立刻 给 在 美国 当地 的 公司 员工 打 电 话 ， 
让 他 们 赶快 和 远 在 日 本 的 家 人 联系 。 当 时 ,我 
自己 也 无 法 和 家 人 取得 联系 。 通 过 Gmail 的 聊 
天 功能 ， 我 向 公司 下 达 了 回 家 的 命令 。 

然而 ， 令 人 绝望 的 事情 随后 而 至 。 核 电站 
出 现 了 危机 ! 福 咏 的 核电 站 一 旦 发 生 泄露 ,其 
至 连 东 京 也 将 陷入 危机 。 而 我 正 远 离 祖国 ， 一 
A 
自己 的 无 能 为 力 感到 极度 的 失望 和 痛 藻 。 虽 说 
在 这 种 情况 下 ， 谁 也 没有 办 法 。 这 就 是 所 谓 的 
绝望 ， 真 真切 切 。 

T= 
都 召集 了 起 来 ,决定 号 召 努 捐 。SXSW 大 会 的 
筹备 办 事 处 也 大 力 协助 ， 在 最 显眼 的 地 方 设置 
了 募捐 场 。 募 捐 活动 进展 顺利 ，3 天 就 筹 到 了 
2000 万 日 元 的 善 蒜 。 然 后 ,我 们 通过 奥斯汀 
当地 的 友人 ， 把 捐款 托付 给 了 红 十 字 会 。 

我 和 家 人 也 在 第 二 天 取得 了 联系 。 妻 子 的 
3 
事 。 公 司 员 工 也 没有 人 负伤 。 然 而 ， 对 核 辐射 
的 担忧 开始 草 延 。 核 电站 的 糟糕 状况 完全 不 可 
预想 ， 说 不 定 什么 时 候 核 电站 就 会 爆炸 。 面 对 
这 种 状况 ， 我 也 质疑 起 当时 让 在 美国 的 员工 都 
回 日 本 的 决定 究竟 是 否 正确 。 


一 一 一 一 


霸 后 一 个 星期 ， 我 终于 回 到 了 东 束 。 


面 对 灾 后 的 惨状 ， 如 果 再 谈论 游戏 类 的 工 
作 ， 有 些 不 合 时 宜 。 我 甚至 一 时 提 不 起 精神 来 
工作 。 然 而 ， 身 处 灾区 ， 深 受 地 震 影响 的 小 嚼 
子 的 一 席 话 ， 让 我 的 想法 大 为 转变 。 

2 
我 们 也 无 能 为 力 。 唉 ， 真是 的 ， 整 天 无 所 事 事 。 
我 不 能 整 天 什么 也 不 做 啊 。” 

他 们 真 的 很 想 忘 记 震 后 的 惨烈 光景 ,仿佛 
在 说 :“ 就 让 我 忘掉 这 些 吧 ， 谁 能 告诉 我 ， 现 
在 我 可 以 做 些 什么 。” 他 们 对 生活 的 强烈 淘 望 ， 
和 直击 我 心 。 

我 想 我 不 仅 能 制作 游戏 供 他 们 消磨 时 光 ， 
而 且 要 把 “制作 游戏 的 过 程 本 身 ， 就 是 一 种 快 
乐 的 游戏 ”的 这 种 妙 不 可 言 的 美好 感觉 传递 给 
大 家 。 或 许 ， 这 将 是 一 个 机 会 ， 让 他 们 重新 获 
得 赖 以 生活 的 技能 。 

就 在 这 时 ，9leap 由 构想 变 为 现实 的 计划 
突然 变 得 清晰 起 来 。 只 要 有 电脑 ， 无 论 谁 ， 无 
论 身 处 何 地 ， 利 用 HTML5， 就 可 以 进行 游戏 
创作 。 而 且 ， 只 要 有 智能 手机 ， 这 些 游戏 就 可 
以 目 由 运行 。 而 我 坚信 目 己 可 以 创造 出 这 样 一 
个 世界 : 在 这 里 ， 人 人 都 可 以 创作 游戏 ， 领 悟 
游戏 的 制作 方法 ， 由 入 门 到 精通 ， 成 为 了 不 起 
的 专业 人 才 。 想 到 这 些 ， 我 下 了 决心 ,我 要 真 
正 开 始 这 项 事业 了 。 


让 一 一 一 


从 灾区 回 到 东京 ,我 便 召 开 了 临时 董事 会 。 
眼前 是 一 张 张 熟悉 的 面孔 ， 阔 别 数 日 ， 我 们 再 
度 重 逢 。 我 郑重 入座 ， 抛 出 了 话题 : “我 想 在 
秋 叶 原创 建 一 个 NASA。” 

“什么 ?我 们 准备 要 进军 航天 事业 了 ?” 

“不 是 的 。NASA 和 象征 着 世界 上 知识 和 智 
慧 的 最 高 峰 。 大 家 知道 吗 ? 阿波 罗 登 月 计划 的 
i Gone Kranz ol 7 35 A 
在 飞行 计划 廊 面 ,他 的 权力 高 于 天 国 品 先 。 内 
有 35 岁 ， 这 意味 者 什么 ”也 就 是 说 ,在 关 利 
坚 合众国 ， 在 拥有 最 高 智慧 的 组 织 中 ， 他 们 的 
现场 指挥 官 ， 仅仅 只 有 35 岁 ! 由 此 可 见 ， 为 


= 村 | ”> 
SXSW 上 紧急 开展 的 募捐 T 恤 义卖 。 大 部 分 人 购买 
T 必 的 同时 ， 又 进行 了 捐款 。 


了 实现 开拓 创新 ， 要 聚集 优秀 的 人 才 ， 培养 并 
且 信 任 他 们 ， 而 不 应 以 年 龄 而 带 上 有 色 有 眼镜 。 
能 力 决定 一 切 ， 这 就 是 NASA 了 不 起 的 地 方 ， 
这 也 是 美利坚 合众国 了 不 起 的 地 方 。 

“ 嗯 ， 那 我 们 准备 做 什么 呢 ?” 

“把 人 送 往 月 球 …… 呵 呵 , 开玩笑 啦 。 不 过 ， 
我 确实 想到 了 一 个 宏大 的 计划 : 让 困 于 软件 星 
Bh 

“这 个 组 织 起 好 名 字 了 吗 ?” 

ARC 

“ 阿 一 一 元 ?” 

“是 的 ， 秋 叶 原 研究 中 心 ， 人 简称 ARC。 集 
结 起 我 们 公司 的 最 高 智慧 ， 打 造 世 界 上 最 先进 
的 组 织 。” 

“是 像 SONY 的 CSL 那样 吗 ?” 

“不 太一 样 。 目 前 ,我 不 准备 在 ARC 里 安 
排 专 业 人 研究 者 。” 

一 个 计划 在 我 脑海 里 内 过 ， 并 逐渐 明晰 ， 
下 志和 冰 决 记得 ARC 和 柯 秆 四 信行 专业 全 究 
者 的 组 织 。 

“这 个 计划 ,我们 不 妨 试 试看 。” 

承担 着 公司 最 重 销售 任务 的 CTO 水 对 拓 
实 发 言 了 。 他 掌管 UEI 公 司 的 主要 业务 。 如 果 
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/人 <<- ”|ARC 的 LOGO。 上 有 十 希 
一 、 人 下 [四 
三 1 - [内 ,” 来 源 于 柏拉图 创办 的 阿 

wong 卡 德 米 学 园 的 门口 坚 牌 。 喻 


SS。 | 指 ARC 不 只 是 一 个 事业 部 


4 门 ， 更 是 一 个 教育 部 门 。 


水 墅 反对 的 话 ， 我 就 只 能 花费 大 量 心血 去 说 服 
他 ， 否 则 别 无 他 法 。 

“不 只 是 试 试看 ， 我 很 希望 施行 这 个 计划 。 
但 是 ,一 年 内 必须 要 见 到 成 效 ， 这 点 请 你 和 大 
家 做 出 约定 。” 

从 水 野 的 立场 上 看 ， 他 很 担心 公司 成 员 出 
现 不 满 情绪 。 为 什么 要 设置 这 个 组 织 ? 如 果 没 
有 做 出 明确 的 成 果 ， 那 么 维持 这 个 组 织 的 日 党 
运行 , 会 让 公司 员工 认为 是 在 牺牲 自己 的 利益 。 

0 A 

就 这 样 , 2011 年 4 月 1 日 , 秋 叶 原 研究 中 心 ， 
简称 ARC， 作 为 公司 的 新 组 织 ， 正式 成 立 了 。 
我 兼任 所 长 ， 成 员 以 随 公 司 一 起 成 长 起 来 的 精 
锐 员 工 为 主体 ， 伏 见 、 高 桥 、 近 了 蔷 、 过 等 年 轻 
员工 也 加 入 了 进来 。ARC 的 大 总 管 是 柿 添 先 生 ， 
他 曾 在 电 通 管理 过 风险 投资 ， 经 验 丰 宇 。 

enchantjs 项 目 和 9leap 项 目 都 统统 纳入 
WARN 4 
enchant.js 便 正式 发 布 了 ， 而 9leap 项 目 也 于 5 
J a dO Re 询 
100 件 作品 。9leap 项 目 ， 真 如 火箭 升 空 一 般 ， 
气势 恢弘 地 迅速 展开 了 。 
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要 理由 


入 体 工 竺 键盘 的 最 强 者 


KINESIS Contoured & 
Maltron dual hand 3D 


引子 


本 期 将 介绍 可 变更 键盘 布 
局 的 可 编程 键盘 的 代表 一 一 
KINESIS Contoured 键盘 。 此 
外 ， 还 将 介绍 一 球 非 可 编程 键 
盘 一 一 与 KINESIS Contoured 
外 形 相似 的 Maltron dual hand 
3D 键盘 。 


KINESIS 
Contoured 键盘 


KINESIS Contoured 键 
是 美国 KINESIS 公 司 旗下 著名 
的 人 体 工 学 键盘 。 目 前 ， 在 售 
的 USB 接 口 的 Advantage 系 列 
中 ， 除 普通 版 本 之 外 ， 还 存在 其 
他 多 个 版 本 , 如 专业 版 (图片 1)、 


图 片 2 KINESIS Contoured 
键盘 ( Advantage ) 


使 用 Dvorak 布 局 印刷 键 帽 的 
版 本 、 采 用 1linear feel 按键 轴 
的 版 本 (图 片 2) 等 。 

专业 版 除了 多 项 附加 功能 
外 ， 还 附 赠 一 个 拥有 一 个 开关 
的 脚 踩踏 板 ( 图 片 3)。 也 可 以 
另外 选 购 拥 有 三 个 开关 的 脚 蹊 
踏板 (图 片 4)。 


@ 大 


KINESIS Contoured 键 
的 特点 大 致 如 下 : 
。 可 以 有 效 使 用 大 拇指 的 
碗 状 外 形 。 
。 方 格 形 的 布局 。 
。 可 编程 功能 
。 采 用 机 械 轴 。 


人 兢 状 的 外 形 以 及 方 格 形 的 


片 3 Contoured 专用 脚 踩 踏板 
( 单 键 ) 


图 片 1 
Contoured 键盘 
(Advantage pro ) 


KINESIS 


布局 ， 可 以 使 手腕 和 手指 在 几 
乎 不 需要 移动 的 情况 下 按键 。 
同时 ， 相 较 于 一 般 的 键盘 ， 大 
拇指 可 以 藤 击 的 按键 增多 ， 所 
以 可 以 更 有 效 地 使 用 大 拇指 。 

可 编程 功能 允许 使 用 键盘 
本 刁 的 设置 功能 ， 以 目 由 修改 
任意 按键 的 位 置 。 在 操作 系统 
中 ， 只 需 设 置 成 英文 布局 即 
可 ,不 需要 其 他 的 任何 设置 。 
按键 排列 的 变更 本 里 并 不 需要 
特别 的 软件 。 首 先 保持 键盘 接 
和 人 PC 的 状态 ， 按 住 program 键 
+[F12j 进 入 映射 模式 。 按 顺序 
输入 复制 前 的 按键 、 复 制 后 的 
按键 ， 再 一 次 按 住 program 键 
+[F12] 即 可 完成 映射 。 并且 ， 
还 可 以 定义 一 个 一 对 多 的 按键 
宏 。 这 个 设置 也 不 需要 特别 的 


图 片 4 Contoured 专 用 脚 踩踏 板 
(三 键 ) 


软件 。 专 业 版 还 可 以 锁定 重新 
映射 过 的 布局 ， 让 第 三 者 无 法 
对 其 进行 变更 。 

键 轴 的 部 分 采用 的 是 Chery 
的 机 械 茶 轴 。Cherry 的 键 轴 有 
很 好 的 耐用 性 ， 以 及 良好 的 击 
键 感 。 茶 轴 的 特点 是 按键 在 按 
下 之 前 有 少许 阻隔 感 。linear 
feel 版 本 使 用 的 是 Cherry 的 红 
轴 。 红 轴 与 茶 轴 不 同 ,没有 了 
按键 按 下 之 前 的 阻隔 感 ， 特 点 
是 随 着 按键 按 下 的 深度 增加 ， 
按键 的 反弹 会 随 之 线性 地 加 强 。 


OO 购买 方法 


KINESIS 的 产品 在 日 本 有 
代理 店 。 比 从 KINESIS 公司 
直接 购买 要 更 便宜 ， 并 且 一 年 
中 会 有 多 次 优惠 活动 ， 可 以 以 
便宜 好 几 个 百分比 的 价格 购买 
到 。 也 可 以 通过 Amazon 购买 。 
以 上 两 种 购买 方式 ， 价 格 大 约 
都 在 3 万 日 元 左右 (折合 人 民 
币 约 1776 元 )。 


Maltron dual hand 
3D 键盘 


Maltron dual hand 3D 键 
盘 是 Maltron 公 司 的 老牌 人 
体 工学 键盘 (图片 5)。、 有 采用 
Dvorak 布 局 版 , 配备 轨迹 球 版 、 
无 轨迹 球 版 等 多 种 类 型 。 


@ #: 


Maltron 与 KINESIS 外 形 十 
分 相似 ， 其 区 别 如 下 (图片 6): 
。 功能 键 为 首 通 材质 ， 不 
是 橡胶 制 成 。 


CD http://edikun.ocnk.net/。 中 国 读者 可 以 选择 到 Amazon 购 买 或 找 相 应 渠道 代购 。 


© http://www.maltron.com/ 


图 片 5 ”Maltron dual hand 3D 键盘 


。 小 键盘 区 独立 存在 于 中 央 。 

。 键盘 布局 有 些许 差异 。 

。 配备 了 轨迹 球 。 

。 没 有 可 编程 功能 。 

。 大 拇指 的 按键 区 域 在 凹 
陷 下 去 的 位 置 。 


Maltron 的 轨迹 球 设计 较 小 ， 
拉 远 了 和 键盘 Home Position 
(基准 位 ) 的 距离 。 此 外 大 拇指 
按键 区 域 的 凹陷 ， 和 KINESIS 
相 比 也 使 按键 距离 变 远 。 整 体 
感觉 像 是 为 手 大 人 群 设计 的 。 

除 此 以 外 ，Maltron 也 采 
用 了 Cherry 的 机 械 轴 ， 这 里 使 
用 的 是 黑 轴 。 黑 轴 基 本 上 和 红 
轴 类 似 ， 特 点 是 按键 的 反弹 较 
强 一 些 。 


(CC 购买 方法 


在 日 本 虽然 有 Maltron 的 
代理 店 ， 但 价格 却 相当 高 ， 约 
12 万 日 元 (折合 人 民 币 约 7119 
元 )。 官 网 直 购 商店 价格 为 435 
欧元 ， 但 不 知道 是 否 可 以 送 货 
到 日 本 。 另 外 ，ebay 上 偶尔 也 
有 售卖 。 笔 者 就 是 从 ebay 购买 


的 ， 最终 苋 标价 约 为 500 美 元 。 


本 期 介绍 了 两 笋 编程 键盘 。 
Maltron 更 适合 手 大 的 人 和 群 ， 但 
两 者 都 是 优秀 的 著名 人 体 工 学 
键盘 , 如 条 你 被 腿 鞘 炎 困扰 的 话 ， 
这 两 蒜 键 盘 是 值得 购买 的 。 本 
期 虽然 没有 详细 介绍 Cherry 机 
械 轴 ,但 Cherry 机 械 轴 也 是 关 
平 键盘 性 能 的 一 大 特点 。 有 关 
Cherry 机械 轴 将 在 今后 介绍 。 


图 片 6 Maltron 和 KINESIS 的 对 比 


译 者 注 
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文 / 坪 井 义 浩 ( TSUBOI Yoshihiro ytsuboi@gmail.com Twitter @ytsuboi ) 译 / 苏 神 


协助 : ( 株 ) switch science http://www.switch—science.com/ 
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继 上 个 月 参加 深圳 制 汇 节 后 ， 此 次 我 
们 又 去 参加 了 世界 最 大 规模 的 旧金山 湾 区 
制 汇 闻 (Maker Faire Bay Area )。 

正如 其 名 ， 该 制 汇 节 在 美国 硅谷 地 区 的 
San Mateo 举行 。San Mateo 距离 旧金山 机 场 
非常 近 ， 打 车 费用 在 30 美 元 之 内 。 

笔者 在 Switch science 的 展台 出 展 ， 所 以 
未 能 深度 体验 整个 制 汇 节 ， 但 也 算是 简单 转 
了 一 圈 ,， 在 此 疝 大 家 介绍 一 些 有 意思 的 内 容 。 


V 图 片 1 食物 展台 的 烟 村 机 


与 日 本 的 制 汇市 相似 的 是 ， 来 客 也 多 是 
以 家 庭 为 单位 ， 使 得 制 汇 节 更 像 是 面向 家 
庭 的 活动 。 制 汇 节 的 英文 使 用 了 “Faire” 而 
非 “Fair”， 这 源 于 中 世纪 的 节庆 活动 圣 何 
塞 Fantasy Faire， 如 其 所 指 , 确实 是 盛大 的 
节庆 活动 。 制 汇 节 上 也 有 很 多 食品 售卖 展 
人 台 ,， 尺寸 在 日 本 人 看 来 是 很 大 的 。 例 如 其 
他 出 展 考 推 荐 笔 考 尝试 的 烤 火 鸡腿 烟 票 机 融 ， 
规模 如 图 刻 1 所 示 。 


当然 ， 很 多 展品 太 二 在 日 本 无 法 想象 。 比 
如 图 片 2 中 所 示 巨 大 的 Lifesize Mousetrap ， 
类 似 于 “ 毕 达 哥 拉 斯 开关 ””， 这 般 庞 然 大 
物 真 不 知 是 如 何 搬运 到 会 场 中 的 。 另 外 ， 还 
有 小 型 潜水 艇 的 展 出 (图片 3)。 


最 近 闫 国 的 创 客 末 划 了 越 来 越 多 面向 小 


CI NHK 教育 合 的 一 个 培养 小 孩子 思考 方法 的 电视 节目 。 
译 者 注 


图 片 3 ”潜水 艇 
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朋友 的 活动 。 例 如 目前 正在 实施 的 “小 创 客 ” 
(Young Makers ) 项 目 2， 它 以 通过 气压 使 棉 
花 糖 飞 起 的 Marshmallow Cannon 声名 况 起 ， 
甚至 有 新 闻 称 美国 总 统 奥巴马 也 将 邀请 该 少 
年 创 客 到 日 宫 一 起 放飞 棉花 糖 。 耕 有 兴趣 的 
话 ,， 可 以 通过 搜索 “Extreme Marshmallow 
Cannon” 来 了 解 具体 情况 。 

当然 ， 可 能 大 多 小 创 客 的 成 年 监护 人 是 
工程 师 ,， 并 且 也 帮 了 他 们 不 少 , 但 也 有 一 
些 作 品 即使 从 成 人 的 角度 来 看 ， 也 是 非常 有 
意思 的 。 例 如 ， 能 让 人 联想 到 Blue Man 的 
乐 伦 ,使 用 PVC 管 制作 乐 妖 (图 片 4), 使 
用 了 Makita 的 电动 工具 作为 动力 的 气垫 船 
(图 片 5)， 巨 大 的 柏 青 哥 (图片 6) 等 。 这 些 
也 都 是 在 日 本 城市 中 心 的 住宅 条 件 下 ， 基 本 


(2 http://youngmakers.org/ 


图 片 4 PVC 管 乐器 
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和 图 片 5 气 董 豚 
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2013 旧 金山 湾 区 制 汇 节 


无 法 进行 尝试 的 大 制作 。 在 美国 ， 创 客 受 到 
天 注 的 原因 之 一 是 制造 业 层 面 上 的 回归 ， 而 


在 日 本 ,制造 业 日 渐 没 落 的 原因 ， 也 可 能 源 
于 类 似 的 活动 和 玩乐 机 会 的 缺失 。 


Lm 人 人 


笔者 在 深圳 时 深切 体会 到 ， 在 国外 比 在 
日 本 更 容易 遇 上 机 顺 人 制作 爱好 者 。 美 国 的 
极 客 当中 ， 星 球 大 战 相 关内 容 依然 是 主流 。 
现场 有 一 处 聚集 了 大 量 星 战 中 的 机 器 人 ， 很 
多 人 都 在 开心 地 拍 着 照片 (图 片 7)。 这 些 机 
器 人 的 展示 方式 也 非常 巧妙 ， 大 家 可 以 在 星 
战 军 宙 船 的 巨大 海报 前 为 其 担 照 。 与 东京 的 
制 汇 节 相 比 ， 这 样 的 展示 方式 体验 更 好 。 另 
外 , 与 此 类 似 的 作品 还 有 BEER2D2( 图 片 8)。 
BEER2D2 看 上 去 是 使 用 啤酒 桶 制作 的 机 玫 
人 ， 它 可 以 在 会 场 中 到 处 跑 动 。 

在 日 本 ， 有 机 器 人 方面 的 鄞 赛 ， 而 在 美 
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V 图 片 9 竞赛 机 器 人 
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国 ， 也 有 展 出 用 于 竞赛 的 机 般 人 (图 片 9) 
可 以 投 出 飞盘 的 机 融 人 吸引 了 笔者 的 眼球 ， 
让 我 感慨 不 已 。 它 不 仅 可 以 用 飞盘 击 中 目标 ， 
还 可 以 将 挥 下 来 的 飞盘 回收 起 来 。 它 的 目 律 
性 让 我 感触 颇 深 。 


COSsSplay 


会 场 中 也 有 很 多 穿 柯 疲 寞 服 的 人 ， 让 不 


了 解 创 客 文 化 的 美国 人 惊叹 “好 多 奇怪 的 人 ” 
(图 刻 10)。 有 些 人 更 是 拿 出 了 看 家 本 领 ， 费 
尽心 思 , 上 自己 做 了 模具 并 用 树脂 制 做 部 件 
(图 片 11)。 

另外 , 也 有 人 穿着 游戏 中 的 市 刺 布 偶 装 。 
而 这 些 尖 刺 貌 似 还 会 随 着 号 体 的 运动 发 光 (图 
片 12)。 另外 ,也 有 扮演 成 恶魔 的 人 (图 片 
13 )， 这 套 衣 服 的 独到 之 处 是 配备 了 声音 转 
化 器 ,， 嘴 的 部 分 可 以 根据 声音 改变 点 亮 模式 。 

在 这 里 还 遇 上 了 之 前 在 深圳 遇 到 的 人 ， 
她 的 名 字 叫 Katia Vega 包 ， 研 究 方向 是 可 穿 
戴 电 脑 技术 (图 片 14)。 她 的 眼线 是 用 导电 
材料 制作 的 ， 所 以 通过 上 是 眼 即 可 对 一 些 设备 


(3) http://katiavega.com/ 


图 片 10 专业 的 Cosplay 


Si 


进行 控制 ， 指 甲 上 的 RFID (天 线 射 频 识 别 )， 
可 以 对 手指 的 触 碰 进 行 识别 。 


笔者 在 各 地 走访 过 的 hackerspace， 也 
在 制 汇 节 出 展 介绍 目 己 的 空间 。 这 次 在 
湾 区 , 我 对 bio curious(Bio 系 中 罕见 的 
hackerspace ) 很 感 兴趣 ， 所 以 特地 去 看 了 下 
展区 。 如 之 前 在 Make: Japan 的 博客 中 介绍 的 ， 
他 们 制作 出 了 DIY Bio Printer (图片 15),。 最 
近 ，3D 打 印 机 的 话题 一 下 很 热 ， 而 在 技术 
阵地 最 前 沿 ， 也 在 人 研究 着 生物 打印 技术 ， 该 
技术 可 以 将 细胞 进行 3D 打 印 ， 并 制作 成 用 
于 移植 的 组 织 需 官 。 

该 打印 机 是 通过 使 用 嘎 墨 打印 机 的 墨 
盒 ， 将 大 肠 杆 丽 印 刷 到 培养 亚 的 天 脂 上 。 妆 
然 这 还 算 不 上 最 前 沿 的 技术 ， 但 通过 DIY 轻 
松 地 尝试 类 似 领域 的 技术 ， 确 是 件 非 党 新 潮 
的 事情 。 这 个 打印 机 的 制作 方法 公开 在 名 为 
instructables 的 网 站 上 出 。 在 instructables 网 
站 上 ， 还 有 很 多 有 意思 的 项 目 。 


由 http://www.instructables.com/id/DIY-BioPrinter/ 


日 机 的 册 展 者 


此 次 湾 区 制 汇 节 也 有 多 各 日 本 的 出 展 者 
参加 ， 在 此 介绍 一 下 。 

站 和 完 在 湾 区 居住 多 年 的 Kazuhi 氏 ， 他 
的 展品 名 为 GlueMotor( 有 照片 16)。Kazuhi 
氏 在 去 年 的 湾 区 制 汇 市 出 展 ， 并 有 旦 当选 了 
Editors Choice， 在 Make 林 志 中 还 发 表 了 文 
章 。 而 今年 ， 他 采 获 了 Education Award， 再 
次 桂冠 加 身 。 他 是 位 非常 有 杀 和 力 的 大 叔 ， 
他 还 种 笔者 去 竹 了 湾 区 的 旧 货 店 。 

GlueMotor 基本 没有 使 用 电路 部 件 ， 而 
是 通过 iPhone 等 智能 手机 的 耳机 端口 ， 控 制 
伺服 的 内 容 。GlueMotor 制 作 非 常 简单 ， 主 
要 部 分 为 编写 午 能 手机 的 应 用 ， 对 于 本 杂志 
的 读者 来 说 应 该 是 易如反掌 。 这 个 网 站 上 ， 
有 他 编写 的 相关 信息 ， 奋 有 兴趣 ， 大 家 不 妨 
访问 查看 。 

男 一 位 日 本 的 出 展 者 是 伊 葬 氏 (@itog)。 
他 的 展品 为 FourBeat( 图 片 17)， 是 Android 
系统 下 很 多 应 用 可 以 利用 的 一 系列 按键 。 被 
称 为 日 本 版 Kick Starter 的 CAMPFIRE， 为 这 
个 作品 建立 了 融资 基金 ， 很 多 小 朋友 都 聚集 
在 展台 并 狂热 地 连 击 着 按键 。 


(5) http://www.gluemotor.com/ 


Mls 16 GlueMotor 


有 图片 17 POU ea 


同样 来 目 日 本 的 出 展 者 新 里 氏 (@ 
hirotakester) 展 出 的 是 ， 可 以 与 心跳 相关 联 


的 发 光 史 莱 姆 (图 片 18) 这 里 也 
多 小 朋友 在 玩 史 羔 姆 。 


之 前 提 到 的 Kick Starter 网 络 服务 ， 是 
近期 的 热门 话题 。 此 次 的 制 汇 市 中 ， 也 有 众 
多 出 展 者 在 宣传 着 上 自己 在 Kick Starter 融 资 
的 内 容 ， 和 硕 望 通过 筹集 资金 进一步 推进 自己 
的 项 目 。 此 次 英特尔 、 丰 田 、 雪 佛 兰 、 福 特 
等 大 企业 赞助 制 汇 节 的 举动 ， 也 让 人 感受 到 
了 创 客 在 社会 中 的 影响 力 。 


聚集 了 很 


(6) http://kickstarter.com/ 


V 图 片 18 ”新 里 氏 的 史 莱 姆 


书 讯 发 布 活动 公告 。 ”在 线 出 版 。 ”电子 书 
《 码 农 》 杂志。 。 图 灵 访 谈 。 技术 交流 作 译 者 互动 


图 灵 社 区 iTuring.cn 


图 灵 社 区 以 为 读者 提供 一 流 的 内 容 为 己任 ， 拥 有 欢 多 资深 扩 术 爱好 者 用 
户 ， 是 国内 专业 的 1T 扩 术 “交流 + 阅读 ”社区 之 一 。 图 灵 社 区 经 过 不 断 升级 
改造 和 尝试 实践 ， 已 迅速 成 长 为 国内 知名 科技 电子 书 铀 售 平 全。 我 们 愿 竭尽 
全 力 ， 将 您 的 知识 和 才华 展现 在 广大 的 反 术 书 读者 面前 。 
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特辑 1 


这 里 开始 


一 Excel. R， Mahout . 大 数据 一 


让 我 们 重新 审视 数据 的 价值 


RCR 


“大 数据 ”给 人 一 种 很 阳春 白雪 的 印象 ， 容 易 让 人 以 为 它 是 一 个 与 自己 无 关 的 数据 分 析 领 
域 的 术语 。 然 而 ， 在 当今 这 个 时 代 ， 为 了 在 激烈 的 竞争 中 求生 ， 不 可 欠缺 的 惑 是 创造 新 机 遇 
和 挖掘 新 需求 。 因 此 ， 无 论 面 对 的 数据 量 是 大 是 小 ， 我 们 都 需要 数据 分 析 抠 术 ， 从 而 获取 有 
用 信息 ， 这 样 的 需求 与 日 俱 增 。 

然而 ， 分 析 数 据 及 正确 预测 ， 都 离 不 开 数 学 和 统计 学 知识 。 是 知 难 而 退 ， 还 是 迎 难 而 上 ， 
就 成 为 决定 软件 工程 师 是 人 否 具有 强大 竞争 力 的 分 水 岭 。 

本 特辑 面向 软件 工程 师 ， 详 细 讲 解 日 趋 重要 的 数据 分 析 技 术 。 同 时 ， 我 们 还 介绍 有 助 于 
掌握 必要 知识 的 学 习 方 法 及 参考 书 ， 以 及 通过 使 用 Excel、R、Mathout 等 工具 来 掌握 数据 分 
大。 


献 给 软件 工程 师 们 


; 狐 据 科学 入 门 及 学 习 指 导 … 时 .人 p22 
Chapter @ 柏 野 奴 太 


数据 分 析 入 门 必 备 知 识 
9 让 数据 分 析 工 具 助 你 一 璧 之 力 [Excel 篇 ] p28 
| @ 高 木 基 成 


数据 分 析 入 门 必 备 知识 


ES 不 用 数学 公式 也 能 学 ? 
i , 如 何 掌握 机 器 学 习 SS p46 
Chapter @ 人 竹 迫 良 范 


喇 妥 学 习 的 广泛 应 用 及 未 来 ………. 人 .2 3% p52 
@ 鹿 鸟 久 融 
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_ 特辑 1 


近来 ， 大 数据 热度 稍 有 减退 ， 但 此 前 大 家 
对 大 数据 的 追捧 几 近 狂热 。 从 不 了 解 情况 的 商家 ， 
到 连篇 累 且 的 经 济 类 报纸 ， 大 家 对 大 数据 都 进 
行 过 大 肆 宣 扬 。 在 《日 本 经 济 新 闻 》 上 ， 甚 至 
都 出 现 过 Hadoop、MapReduce 等 字眼 。 但 是 此 
后 两 年 间 ， 情 况 并 没有 因 大 数据 而 出 现 大 的 变 
化 。 耐 不 住 性 子 的 人 便 开 始 感 叹 :“ 大 数据 不 行 
了 ! 补 有 人 甚至 开始 撰写 具有 煽动 性 的 报道 :* 显 
然 不 是 什么 大 数据 ， 却 还 要 伪装 ， 简 直 就 是 拿 
钱 打 水 漂 ! 包 

然而 ， 两 年 之 后 ， 大 数据 不 但 没有 消亡 ， 
反而 越 来 越 让 人 们 坚信 ， 今 后 的 数据 将 会 越 来 
越 大 ， 大 数据 相关 的 技术 和 知识 将 会 变 得 越 来 
越 重 要 。 在 现存 机 构 的 数据 之 上 ， 通 过 网 络 和 
客户 进行 数据 交互 而 引起 的 数据 增加 ， 开 放 资 
料 数据 的 增加 ， 社 交 网 络 数据 的 激增 ， 以 及 为 
了 简便 地 读 取 这 些 数 据 而 层出不穷 的 新 手段 ， 
所 有 这 些 都 表明 数据 规模 正 变 得 起 来 越 大 。 


献 给 软件 工程 师 作 


学 习 数 据 分 析 ， 从 这 里 开始 


门 


我 对 机 器 学 习 或 者 数据 分 析 有 兴趣 ， 但 是 相关 的 专业 知识 纷繁 复杂 ， 不 知道 
从 哪里 开始 着 手 。 想必 不 少 朋 友 有 这 种 苦恼 吧 。 本 文 面 向 软件 工程 师 ， 以 介绍 
数据 科学 的 兴起 和 概要 开 靖 ， 逐 步 讲解 数据 科学 的 必要 知识 与 技术 ， 同 时 也 给 
大 家 提供 必要 的 学 习 指导 。 


5 年 前 有 人 如 此 评价 云 计算 :“ 只 是 炒作 而 
已 。” 当时， 这 样 想 的 人 很 多 。 但 是 现在 ， 云 
计算 显然 已 经 完全 主导 了 服务 器 并 的 计算 机 了 。 

和 云 计算 一 样 ， 大 数据 也 改变 了 计算 机 原 
有 的 使 用 方式 。 无 论 是 谁 ， 最 终 都 将 不 得 不 顺 
应 这 一 巨大 潮流 。 差 别 仅仅 在 于 实现 这 种 转移 
需要 的 时 间 长 得 ， 是 几 年 还 是 几 十 年 而 已 。 无 
论 你 喜欢 与 否 ， 今 后 奉 没 有 处 理 大 数据 知识 和 
技术 , 就 无 法 使 用 计算 机 , 这 样 的 时 代 即 将 来 临 。 
正 因 如 此 ， 软 件 工程 师 们 必须 掌握 大 数据 的 处 
理 分 析 , 否则 接 下 来 的 职业 生涯 将 变 得 异常 艰难 。 

对 于 软件 工程 师 来 说 ， 最 关键 的 问题 是 掌 
握 必 要 的 知识 和 方法 ， 然 而 ， 这 是 一 个 庞大 的 
知识 体系 ， 因 此 ， 学 习 起 来 不 会 像 学 习 网 络 构 
架 那 样 轻松 。 


\ 


数据 科学 是 一 个 专业 术语 ， 指 与 大 数据 处 
理 相关 的 知识 体系 和 技术 系统 9。 实 际 上 ， 数 


CD Big Data is dead (http://venturebeat.com/2013/02/22/big-data-is-dead-wahts-next/ )。 
(2 Most data isn’ t ‘big’ and businesses are wasting money pretending it is (http://qz.com/8166/most-data-isnt-big-and-businesses-are-wasting- 


money-pretending-it-is/ )。 


@) 最 早 阐 述 数 据 科 学 的 是 O’ Reilly 的 Mike Loukides 先 生 的 What is data science? (http://radar.oreilly.com/2010/06/what-si-data-science.html )。 


据 科学 是 统计 学 /数据 分 析 、 软 件 编程 技术 / 计 
算 机 科学 知识 、 实 际 商务 及 人 研究 领域 等 的 专业 
知识 的 紧密 结合 。 从 事 数据 科学 工作 的 人 被 称 
为 数据 科学 专家 。 数 据 科 学 经 常 被 称 为 专业 知 
识 、 数 学 知识 以 及 计算 机 科学 知识 的 综合 体 。 
数据 科学 的 知识 体系 如 图 1 所 示 。% 

数据 科学 包括 三 大 基本 领域 .商务 以 及 人 研 
究 的 专业 知识 或 技能 (A 领域 )、 软 件 编程 技术 
及 计算 机 科学 的 基本 知识 (B 领域 )、 数 学 以 及 
统计 学 知识 (C 领 域 )。 这 三 部 分 之 间 互 有 重 装 ， 
例如 ，A 和 B 的 重 登 部 分 被 称 为 进行 商务 和 研 
究 的 数据 人 处理 领域 ， B 和 C 的 重 共 部 分 就 是 最 
近 很 盛行 的 机 带 学 习 领 域 , A 和 C 的 重 革 部 分 ， 


有 图 1 数据 科学 的 知识 体系 


献 给 软件 工程 师 们 


本 


数据 科学 入 门 及 学 习 指导 


很 久 以 前 就 已 经 被 称 为 科学 研究 领域 。 数 据 科 
学 就 是 A、B 和 C 这 三 大 部 分 都 重 闪 的 中 心 部 分 。 
笔者 坚信 ， 这 部 分 将 来 必定 会 成 为 软件 工程 师 
专门 研究 的 领域 。 

在 数据 科学 的 发 祥 地 美国 ， 一 位 任职 
Google 的 著名 微观 经 济 学 家 哈 尔 : 范 里 安 ，7 
年 前 曾经 说 过 :“ 统 计 是 未 来 迷人 的 工作 。” 
由 此 开始 ， 广 义 上 的 统计 学 ” 即 数据 科学 引起 
了 IT 界 的 广泛 关注 。 

然而 ， 把 数据 科学 作为 独立 术语 使 用 的 做 
法 也 遭 到 了 一 些 批 判 。 ?批评 者 们 认为 ,如同 
CERN (欧洲 原子 核 研究 机 构 ) 为 了 发 现 希 格 
斯 玻 色 子粒 子 而 进行 的 实验 一 样 ,“ 将 理论 和 


数据 科学 


B 计算 机 科学 


A 专业 领域 


C 数学 , 统计 学 


由 这 幅 图 是 根据 IA Ventures 公 司 的 著名 数据 科学 专家 康 威 先 生 的 数据 科学 定义 绘制 的 。 最 近 他 在 《数据 科学 通信 园地 》 发 表 的 文章 
引发 了 热 议 。 

© http://www.nytimes.com/2009/08/06/technology/06stats.html 

(©) 这 里 虽然 用 了 “统计 学 ”这 个 词 , 但 是 Google 的 范 里 安 先生 的 主张 是 ， 传 统 的 统计 学 主流 派 的 频率 主义 与 其 说 是 奈 曼 -皮尔 进 理 


论 的 统计 学 ， 不 如 说 是 以 机 带 学 习 为 主流 的 贝 叶 斯 统计 学 。 


(7 Moshe Y.Vardi “Science has only two legs” http://delivery.acm.org/10.1145/1820000/1810892/p5-vardi.html?ip=110.5.47.50&acc=OPEN& 
key=1BSSDF923F77674F55057ED4F3766CA0&CFID=217973290&CFTOKEN=96019330& acm=1368853946 dc072110a74bb3bb1259 


ba9327e3d119 


(8) CERN 的 大 型 强 子 对 撞 机 (LHC ) 试验 开始 后 便 会 产生 40 太 字 节 / 秒 的 数据 。 为 了 对 这 些 数据 进行 获取 、 过 滤 、 存 储 和 分 析 ， 必 


须 有 新 的 “科学 ”以 及 “专家 ”。 


CHAPTER ~ 
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次 


到 


上 ，。 ”让 我 们 重新 审 
特辑 1 视 数据 的 价值 


ee 


实践 相 结合 的 科学 研究 ， 需 要 利用 大 规模 计算 
机 来 执行 。 因 为 这 样 的 科学 人 研究， 无 非 是 用 现 
代 的 计算 设备 代替 以 前 的 人 工 操 作 而 已 ， 所 以 
不 能 认为 是 新 兴 的 科学 领域 。 

但 是 ， 当 进行 理论 与 实践 研究 需要 处 理 的 
数据 变 得 特别 庞大 ， 科 学 家 们 已 经 不 能 顺手 处 
理 时 ， 新 兴 的 专门 从 事 这 种 工作 的 专业 人 员 就 
变 得 必 不 可 少 了 ， 这 些 专 业 人 员 理 应 被 称 为 数 
据 科 学 专家 。 

实际 上 ，2010 年 数据 科学 这 个 术语 刚刚 
出 现时 ， 遭 到 了 很 多 批判 。 但 是 到 了 2013 年 ， 
专家 团体 已 经 逐渐 形成 ， 每 个 月 在 各 地 都 会 举 
行 数 百 人 规模 的 会 议 。 并 且 ， 从 芳 动 力 市 场 角 
度 来 看 ， 数 据 科 学 专家 的 需求 也 已 形成 一 定 规 
模 ， 这样 一 来 ,当初 的 质疑 之 声 便 销 声 匿 这 了 。 


各。 数据 科学 的 构成 要 素 


[) 


对 初学 者 来 说 ， 图 1 所 示 的 三 个 领域 之 中 ， 
除了 领域 A 的 专业 知识 以 外 ,统计 学 /数据 分 
析 和 计算 机 科学 的 难度 都 很 高 ， 不 易 掌 握 。 

数据 科学 专家 必 备 的 统计 学 知识 是 描述 统 
计 、 推 新 、 检 验 、 回 归 等 基础 知识 ， 以 及 被 称 
为 数据 科学 主流 统计 学 的 贝 叶 斯 统计 学 。 数 据 
科学 家 所 必 备 的 计算 机 科学 知识 包括 : 对 数据 
结构 的 理解 力 ; 熟练 运用 多 个 分 布 式 计算 系统 
环境 的 能 力 ; “学 习 多 种 编程 语言 的 能 力 ; 对 
数据 分 析 框 架 的 组 合 能 力 了 等 。 

机 器 学 习 理 应 被 称 为 统计 学 和 计算 机 科学 


学 习 数 据 分 析 ， 从 这 里 开始 
一 Excel . R.， Mahout . 大 数据 一 


的 婧 子 ， 是 数据 科学 的 核心 知识 。 机 天 学 习 
的 字面 解释 是 ， 为 了 处 理 某 个 任务 ， 机 釉 〈 软 
件 / 程 序 和 硬件 ) 通过 学 习 过 去 的 经 验 ， 获 得 
高 效 处 理 该 任务 的 各 种 方法 。 在 网 络 教学 网 站 
Coursera 上 ， 吴 恩 达 博士 有 个 著名 的 讲座 ， 
其 中 引用 了 汤姆 : 米 切 尔 先生 关于 机 带 学 习 的 
明确 定义 :“ 假 设 把 利用 成 绩 P 实 现任 务工 所 能 
获得 的 经 验 忆 作为 前 提 条 件 ， 如 打 有 有 茶 个 程序 
(机 融 ) 可 以 利用 现 有 的 经 验 了 来 更 好 地 完成 任 
务 T， 那么 ， 就 可 以 称 这 个 程序 (机 天 ) 具有 
和 学习 能 

对 于 初学 者 来 说 ， 学 习 机 融 学 习 ， 的 确 是 
特别 困难 。 它 不 但 是 日 新 月 异 的 领域 ,而 且 也 
不 像 传统 物理 学 那样 ， 是 可 以 从 第 一 个 原理 开 
始 推导 的 知识 体系 ， 它 是 一 个 庞大 的 探索 式 思 
维 的 集合 。 

总 之 ， 学 习 数 据 科 学 是 要 经 历 一 个 痛 吾 的 
过 程 的 ， 但 这 个 过 程 中 也 是 有 技巧 的 。 


WA ， > 
国生 学习 技 巧 及 资源 介绍 


前 面 已 多 次 阐明 ， 数据 科学 要 求 的 基础 知 
识 量 相 当 多 ， 所 以 学 习 它 是 比较 困难 的 。 学 习 
如 此 大 量 的 知识 ， 最 好 的 方法 当然 是 ， 在 大 学 
或 研究 生 院 充分 利用 讲义 、 练 习 、 讨 论 、 目 习 
的 机 会 ， 以 及 花 时 间 认 真 踏实 地 彻 瓜 理 解 教材 、 
做 练习 、 编 写 程序 。 

然而 ， 上 班 族 要 像 全 职 学 生 一 样 用 全 部 的 
时 间 去 学 习 是 不 现实 的 。 这 里 最 想 推荐 给 上 


@) 具体 指 Hadoop、Spark、Storm、Omq、Cassandra 等 。 


(0 具体 指 Java、C/C++、Python、R、Matlab、Octave 、Scala 等 数据 分 析 的 常用 语言 。 
具体 指 scilit-learn、Mahout 等 主要 构架 ,包括 各 种 构架 的 有 mloss.org 的 软件 分 类 ( http://mloss.org/software/ )。 
(2》 Andrew. NG. 美国 斯 坦 福 大 学 计算 机 科学 系 副 教授 ， 人 工 智 能 实验 室 主 任 ， 在 线 教育 平台 Coursera 联 合 创 始 人 。 


班 族 的 是 ， 利 用 近年 来 迅速 发 展 的 网 络 教育 
(Massive Open Online Course， 简 称 MOOC)， 
网 络 教 育 可 以 实现 在 美国 境外 以 最 小 的 投入 ， 
接受 全 美 最 高 学 府 的 课程 教授 。 当 然 ， 所 有 的 
教材 都 是 瑞 文 的 ,但 并 不 难 懂 。 软 件 工程 师 不 
是 依 徘 身 文 为 生 的 ， 只 要 能 听 民 和 读 懂 相关 专 
业 的 英文 教材 就 足够 了 。% 

男 外 ,本草 将 省 略 书 籍 介绍 ,虽然 好 书 很 多 ， 
但 想 在 短 时 间 内 通过 自学 掌握 大 量 知 识 ， 仪 依 
徘 书籍 还 是 相当 困难 的 。 

在 此 还 将 省 略 作 为 数据 科学 专家 所 应 必 备 
的 计算 机 周边 知识 、 主 流 计算 机 语言 、 数 据 分 
析 / 机 笑 学 习 的 框 染 、 最 优 算法 的 研究 等 计算 
机 科学 知识 。 本 和 草 将 重点 介绍 统计 学 及 机 顺 学 
习 的 MOOC 系列 。 

那么 , 赶快 开始 学 习 利 用 MOOC 的 技巧 吧 。 


@@ 下 载 视频 以 便 在 任何 时 间 能 够 收看 

如 果 选 择 Coursera， 推 荐 使 用 Python 编写 的 
工具 coursera-downloader 电 。 如 果 选 择 YouTube， 
可 以 使 用 Firefox 等 下 载 扩 展 功能 丰富 的 浏览 器 。 
如 果 还 是 不 能 下 载 ， 可 以 使 用 一 些 屏幕 录像 软 
件 记 录 视 频 讲 义 “， 以 便 在 任何 时 间 都 能 够 收看 。 
一 般 情况 下 ，Coursera 课 程 每 次 大 约 只 有 15 分 钟 。 
利用 零碎 的 15 分 钟 ， 集 中 精力 学 习 应 该 是 比较 
容易 实现 的 。 

@@ 利用 平板 电脑 终端 在 任何 地 方 都 可 以 
收看 讲座 

笔者 就 是 使 用 Nexus 7， 无 论 是 访问 客户 


献 给 软件 工程 师 们 


人 


时 ， 还 是 泡 党 的 间隙 都 可 以 收看 讲座 。 短 时 间 
段 收 看 时 ， 最 理想 的 是 能 自动 保存 播放 位 置 。 
Android 的 MX 动画 就 具备 这 种 实用 功能 。 

@ 动手 做 练习 加 深 理解 

即便 跳跃 式 地 收看 讲座 也 没有 关系 ， 根据 
笔者 的 经 验 ， 关 键 是 要 亲自 动手 做 练习 才能 加 


深 理 解 。 为 了 解决 一 道 练习 题 ， 有 时 候 需 要 反 
复 多 次 收看 一 个 讲座 ， 才 能 理解 到 底 结 果 是 怎 


样 得 到 的 ,这 个 过 程 自然 就 会 加 深 对 知识 的 理解 ， 
因此 , 手 脑 并 用 才能 把 知识 巩固 在 自己 的 大 脑 里 。 
@@ 不 必 追 来 完美 
就 软件 工程 师 而 言 ， 学 习 的 目的 是 在 短 时 
间 内 学 会 一 些 基 础 知识 ， 不 是 为 了 研究 ， 所 以 


不 必 达 到 非常 完美 。 


述 统计 学 /推断 /检验 /回归 


这 些 都 是 统计 学 的 基本 术语 ， 非 党 重要 日 
十 分 枯燥 。 快 速 吸收 这 些 知识 的 好 办 法 就 是 使 
用 MOOC。edx 的 Stat2.1x、Stat2.2x、Stat2.3x 
的 讲座 简明 扼要 、 内 容 充 实 , 一 周 内 就 能 掌握 
概率 变量 、 期 望 值 、 分 布 、 贝 叶 斯 推断 规则 、 
推 其 等 基本 概念 。 


https://www.edx.org./course/uc-berkeley/stat2-1x/ 
introduction-statistics/594 
https://www.edx.org./course/uc-berkeley/stat2-2x/ 


(3 http://en.wikipedia.org/wiki/Massive open online course 


很 遗憾 ， 到 2013 年 5 月 为 止 ， 关于 数据 科学 的 日 本 语 的 在 线 讲座 一 个 都 没有 。 


(9) https://github.com/siddharthasahu/coursera-downloader 


9 利用 搜索 引擎 检索 大 键 子 screen recording software open source” 等 就 能 找到 开源 的 屏幕 录像 功能 的 软件 工具 。 但 是 


只 能 允许 流 媒 体 收 看 ， 请 仔细 确认 说 明 。 


， 有 的 网 站 
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introduction-statistics/685 
https://www.edx.org./course/uc-berkeley/stat2-3x/ 
introduction-statistics/825 


如 末 不 用 MOOC， 那 么 想 利用 RR 语言 学 习 
统计 学 基础 知识 的 最 佳 日 语 资源 ， 就 是 群 马 大 
学 社会 情报 系 的 青木 繁 伸 先 生 的 网 站 。 其 中 的 
《统计 学 自学 笔记 》 是 学 习 统 计 学 的 基础 知识 


以 及 R 语 言 的 绝 佳 资 料 。 


http://aoki2.si.gunma-u.ac.jp/lecture/index.html 


另外 ， 筑 波 大 学 医学 医疗 研究 系 的 内田 虽 
先生 创办 的 RjpWiki， 也 是 对 R 语 言及 相关 内 


容 有 定期 介绍 的 日 场 情报 网 站 。 


http://www.okada.jp.org/RWiki/ 


0 只 叶 斯 统计 入 门 


没有 贝 叶 斯 统计 知识 ， 就 不 能 说 是 完整 
的 数据 科学 。 适 合 入门 学 习 的 首选 讲义 是 , 在 
PyCon US 上 的 Bayesian statistics made simple 视 频 
讲座 。 该 讲座 配 有 独特 的 贝 叶 斯 统计 的 代码 库 ， 
虽然 刚 开始 稍微 有 些 抽 象 ,， 但 是 在 动手 编写 简 
单 Python 代 码 的 过 程 中 ， 就 会 渐渐 地 理解 贝 叶 
斯 统计 的 基础 知识 ， 大 约 2 小 时 就 能 掌握 了 。 


http://pyvideo.org/video/1724/bayesian-statistics- 
made-simple 


四 上 且 数据 分 析 入 站 

想 要 尽快 人 门 数 据 分 析 ，Coursera 的 Computing 
for Data Analysis， 是 利用 了 及 语言 进行 数据 分 析 
的 最 佳人 门 讲座 。 


http://www.coursera.org/course/compdata 


特辑 1 让 我 们 重新 审 学 习 数 据 分 析 ， 从 这 里 开始 
视 数 据 的 价值 一 Excel . R.: Mahout* 大 数据 一 


中 数据 科学 入 门 


现在 Coursera 的 课程 中 ， 下 言 不 讳 地 说 ， 关 
于 数据 科学 入 门 讲座 Introduction to Data Science， 
虽然 内 容 实 用 ， 从 关系 型 数据 库 、Hadoop、 
MapReduce 到 数据 整理 的 方法 都 有 全 面 介 绍 ， 
但 是 遗憾 的 是 ， 由 于 数据 科学 的 知识 范畴 广大 ， 
也 使 得 入 门 学 习 讲 义 像 百科 词典 一 样 杂 乱 。 讲 
义 和 课 题 的 内 容 偏 离 较 多 ， 那么 ， 对 于 本 来 就 
没有 太 多 时 间 的 上 班 族 来 说 ,学 习 的 技巧 就 是 
抓 住 关 键 的 要 点 。 


https://class.coursera.org/datasci-001/class/index 


咽 归 | 机 器 学 习 入 门 


MOOC 的 Coursera 的 联合 创始 人 、 世 界 级 
飞行 机 器 人 研究 者 吴 恩 达 博士 的 讲座 Machine 
Learning， 知 识 水 准 高 ， 表 达 人 简洁 明 快 ， 对 于 
初学 者 来 说 ,非常 合适 。 配 合 使 用 Octave 动 
手 编程 练习 ， 收 看 这 个 讲座 ， 就 能 够 掌握 机 融 
学 习 的 基本 知识 。 该 讲座 适用 于 任何 水 平 的 初 
学 者 。 


https://class.coursera.org/m|-2012-002/ 


加 州 理工 大 学 的 亚 僻 : S. 阿 布 -各 斯 塔 法 博 
士 的 讲座 也 十 分 优秀 。 然 而 ， 按 讲座 顺序 逐一 
收看 ， 直 接 选择 感 兴趣 的 专题 讲座 效果 更 好 。 


http://work.caltech.edu/library/index.html 
MOOC 以外， 与 机 右 学 习 有 关 的 日 语 网 站 


中 ， 内 容 最 充实 的 是 产业 技术 综合 人 研究 所 神 岛 
敏 弘 先生 管理 的 “ 朱 路 之 社 Wiki”。 


http:Wibisforest.org/index.php?%E6%A9%96%A2%B 
09%E5%AD%A6%E7%BF%92 

还 有 , 技术 评论 社 的 网 站 (gihyo.jp) 的 “ 开 
始 机 需 学 习 吧 ”, 是 面向 初学 者 的 连载 入 门 讲座 ， 
课程 亲切 周到 ， 配 有 了 Python 代码 的 讲解 有 助 于 
理解 ， 是 一 个 非常 好 的 学 习 资 源 。 


http://gihyo.jp/dev/serial/01/machine-learning 


上 由 机 器 学 习 的 实践 


作为 机 带 学 习 的 实践 讲座 ， 如 果 要 专门 使 
用 scikit-learn， 那 么 必须 收看 PyCon US 的 讲座 。 
scikit-learn 开发 中 心 的 Jake Vanderplas 先生 和 Oliver 
Grisel 完 生 的 培训 训 , 易 懂 易学 ， 同 时 提供 了 要 
点 提示 丰富 的 笔记 ， 非 党 有 助 于 学 习 ， 值 得 推荐 。 


http://pyvideo.org/video/1665/an-introduction-to- 
scikit-learn-machine-learning 
http://pyvideo.org/video/1719/advanced-machine- 
leraning-with-scikit-learn 


上 由 机 器 学 习 高 级 篇 


机 器 学 习 的 高 级 水 平 讲座 中 ,推荐 Coursera 
的 Neural Networks for Machine Learning。 该 
讲座 是 机 需 学 习 领 域 中 流行 的 高 级 水 准 的 讲座 。 


http://class.coursera.org/neuralnets-2012-001/class/ 
index 


(D http://videolectures.net/mlss04 bishop gmvm/ 
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数据 科学 入 门 及 学 习 指导 


和 


而 且 ， 在 videolectures.net 中 ， 收 录 有 世界 
级 计算 机 科学 系 学 会 的 辅导 培训 的 压缩 版 资料 ， 
还 有 著名 的 元 里 斯 托 佛 : M. 贝 肖 普 先生 的 “ 模 
式 识别 与 机 器 学 习 ” 的 部 分 讲义 了 ,该 讲义 最 终 
通过 了 博士 论文 答 辨 ! 一 定 要 充分 利用 这 样 的 
资源 。 关 于 videolectures.com 资源 ， 因 为 篇 幅 有 
限 这 次 不 能 全 部 介绍 ， 以 后 有 机 会 再 详细 介绍 。 


http://Videolectures.net/ 


至 此 ,我 概略 地 介绍 了 使 用 MOOC 学 习 


数据 科学 的 学 习 资 源 。 实 际 上 ， 除 了 这 些 内 容 
之 外 ,数据 科学 的 基础 知识 和 技术 还 有 社交 
网 络 分 析 ， 地 理 空间 的 数据 分 析 以 及 市 场 的 数 
据 分 析 等 应 用 。 机 融 学 习 的 基础 知识 还 有 目 然 
语言 处 理 、 图 像 识 别 、 目 动 翻译 、 语 音 识 别 以 
及 交通 工具 的 日 动 运行 等 应 用 。 

数据 科学 知识 包罗 万 象 ， 因 篇 幅 有 限 ， 很 
多 相关 的 知识 未 能 介绍 ， 也 省 略 了 不 少 个 人 性 


的 意见 ”。 只 能 就 此 黑 笔 ， 非 常 感谢 你 的 耐心 


阅读 。 


(3 数据 科学 是 一 个 大 领域 , 为 了 能 够 处 理 非 正规 数据 , 需要 对 数据 进行 数据 整理 ,因此 需要 有 分 散 型 计算 机 处 理 环 境 及 时 保存 大 数据 ， 


并 在 必要 时 迅速 检索 。 关 于 这 些 内 容 ， 有 机 会 再 与 大 家 交流 。 
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非 数 据 分 析 专 职 人 士 ， 


不 知 有 多 少 读 者 对 “数据 分 析 ” 有 具体 的 
概念 ， 如 果 你 具备 相关 知识 和 经 验 的 话 ， 就 没 


有 必要 在 这 一 草 上 人 花 太 多 时 间 。 但 对 于 像 笔者 
这 样 ， 学 生 时 期 、 工 作 阶 段 和 都 没有 接触 过 数据 
分 析 的 读者 来 说 ， 本 文 也 许可 以 提供 一 些 有 趣 
的 信息 。 让 我 们 稍微 花 一 点 儿 时 间 ， 一 起 来 学 
习 一 下 分 析 数 据 的 方法 。 


so 上 数据 分 析 的 现状 


在 IT 界 ， 大 数据 、 数 据 科 学 、 机 械 学 习 、 
统计 分 析 等 术语 现在 满天飞 。 人 们 希望 从 大 量 
产生 的 数据 中 ,提取 有 价值 信息 并 加 以 利用 ， 
因此 ， 数 据 分 析 备 受 关注 。 另 外 ， 具 有 数学 和 
统计 学 专业 知识 的 数据 科学 家 的 数据 专家 也 备 
受 关 注 ， 现 在 业界 也 正在 议论 着 数据 分 析 方 面 
的 人 才 不 足 和 人 才 培 育 的 问题 。 

在 普通 企业 内 部 ， 有 很 多 潜在 的 基础 数据 
分 析 需 求 ， 可 以 说 正 处 于 摸索 合理 数据 分 析 机 
制 的 阶段 。 对 于 数据 科学 家 、 业 务 的 一 线 负责 
人 、 信 息 系 统 部 门 等 部 门 的 负责 人 ， 数 据 应 该 


投 很 难 对 数据 分 析 究 竟 要 分 析 什 么 ， 
- 体 概念 。 天 于 如 何 分 析 我 们 首先 用 日 常熟 和 的 Excel 数 据 分 析 来 实际 尝试 一 下 。 


数据 分 3 gor 
让 效 据 分 析 工 具 
助 你 一 臂 之 力 


en 
_ 


站 1 和 


[Excel 篇 |] 


怎么 分 析 有 具 


由 谁 来 分 析 ， 这 个 问题 争论 不 休 。 这 种 状况 下 ， 
IT 工 程 师 该 如 何 面 对 数据 分 析 呢 ? 


0 旧 什么 是 数据 分 析 


首先 ， 要 明确 什么 是 分 析 ? 字典 中 是 这 样 
定义 的 :“ 把 一 件 事物 、 一 种 现象 、 
成 较 简 单 的 组 成 部 分 ， 找 出 这 些 部 分 的 本 质 属 
性 和 彼此 之 间 的 关系 。” 数据 分 析 即 是 为 了 阐 
发 现实 中 发 生 的 现象 ， 而 从 数据 中 提取 有 效 信 
恩 的 分 析 。 


一 个 概念 分 


四 且 数据 分 析 的 分 类 


数据 分 析 大 体 上 可 以 分 为 两 类 : 发 现 型 和 
验证 型 。 发 现 型 分 析 不 预 设 目 的 ， 对 数据 进行 
多 角度 分 析 ， 以 发 现 新 信息 为 目的 。 这 种 方法 
可 有 效 获 取 新 信息 ， 受到 了 极 大 的 关注 。 但 是 ， 
实际 工作 中 的 数据 分 析 基 本 上 都 是 验证 型 。 验 证 
型 分 析 的 目的 是 提供 证 据 来 证 明 预 想 的 因果 关系 。 


ao 分 析 的 客体 


在 实际 工作 中 进行 数据 分 析 时 ， 和 需要 提供 


数据 分 析 入 门 必 备 知 识 


让 数据 分 析 工 具 助 你 一 臂 之 力 [Excel 篇 ] 
ra 和 ~ ~ 号 “| 


对 企业 的 目标 有 价值 的 信息 。 我 们 来 简单 介绍 
一 下 具体 的 分 析 需 求 。 
。 销售 额 /需求 供给 预测 
。 销售 额 因素 分 析 ( 怎 样 才 能 畅销 ) 
。 顾客 分 析 ( 什 么 样 的 顾客 买 了 什么 商品 ) 
。 提 高 工作 效率 


从 这 些 例子 我 们 可 以 发 现 ， 通 过 数据 分 析 
可 以 知道 两 件 事情 : 山 通过 分 析 过 去 来 把 握 现 
状 ; 人 通过 分 析 过 去 来 预测 未 来 。 寿 没有 数据 
分 析 ， 束 只 能 徘 经 验 和 和 直觉 来 开展 业务 。 比 如 ， 
党 第 会 实施 一 些 类 似 于 “因为 新 商品 的 顾客 多 
是 十 几 岁 的 人 , 所 以 面 品 年轻 人 展开 促销 活动 ”、 
“因为 电视 广告 最 有 助 于 提高 销售 额 ， 所 以 延 
长 播 出 时 间 ” 的 并 非 基 于 客观 信息 的 经 营 宁 上 略 。 
在 商务 领域 , 经 验 和 直觉 无 疑 是 强大 的 武 瘟 ， 
但 经 验 和 直觉 因 人 而 寞 ,稳定 性 不 强 。 数 据 分 
析 可 以 把 无 形 的 信息 形式 化 ， 这 样 可 以 促进 业 
务 稳步 推进 。 


虽 四 | 数据 分 析 的 流程 


数据 分 析 的 基本 流程 如 表 1 所 示 。 如 有 果 想 


V 表 1 数据 分 析 的 大 致 流程 


要 预测 未 来 ， 就 要 制作 分 析 阶 段 多 的 模型 。 
如 果 只 想 把 握 现状 ， 就 没有 必要 制作 模型 。 
表 1 的 实施 步 又 中 ， 大 家 认为 哪 一 阶段 最 
难 ? 大 家 是 否 感觉 分 析 数 据 和 制作 模型 比较 难 
呢 ? 因为 它们 需要 专业 技能 。 当 然 ， 每 个 阶段 
的 难度 因 分 析 的 内 容 和 项 目 而 异 , 不 能 一 概 而 论 。 
但 是 我 访问 了 一 些 有 数据 分 析 经 验 的 人 ， 得 到 
的 大 多 数 回答 都 是 “ 相 比 起 来 ， 收 集 整 理 数 据 
花 的 劳力 和 时 间 是 分 析 工 作 的 好 几 倍 ”"。 比 如 ， 
想 要 对 其 他 公司 的 销售 额 进行 比较 分 析 的 话 ， 
其 他 公司 的 销售 额 信息 并 不 容易 获得 。 而 且 经 
过 他 人 加 工 过 的 信息 可 信 吗 ?稍微 想 一 下 就 能 


知道 ， 这 里 面 表 定 有 很 多 问题 。 


有 工程师 与 数据 分 析 


通过 前 面 的 内 容 ， 大 家 对 数据 分 析 应 该 有 
本 更深 的 了 解 。 在 大 数据 时 代 ， 各 式 各 样 的 信 
县 被 存储 到 系统 中 ， 尽 管 大 家 邦和 而 望 能 使 用 数 
据 分 析 , 但 现在 连 能 进行 基础 分 析 的 企业 还 很 少 。 
明知 让 数据 大 山里 藏 春 宝 ， 却 放置 在 那里 不 管 
不 硕 ， 着 实 可 异 呀 。 

IT 工程 师 该 如 何 对 答 数 据 分 析 呢 ?笔者 本 


分 析 阶段 。” ”实施 项 目 实施 内 容 
re . 确定 通过 分 析 想 要 和 弄 明白 哪些 内 容 
Ca . 明确 基于 分 析 结 果 想 要 采取 的 行动 
. 汇集 分 析 所 要 的 数据 
储 救 
已 | 收集 整理 数据 . 清除 异常 数据 ， 统 一 数据 的 精度 
- . 使 用 分 析 方法 分 析 数 据 
S | 分 析 数 据 . 在 必要 时 返回 上 一 阶段 
. 按照 分 析 结果 构建 数学 模型 
和 | 制作 模型 . 验证 数学 模型 的 准确 性 
本 本 . 根据 分 析 结果 和 预测 结果 确定 要 实施 的 行动 
名 | 应 用 到 业务 中 . 预测 业务 中 发 生 的 变化 ， 进 行 更 深入 的 分 析 


2 


特辑 1 


30 


让 我 们 重新 审 


视 数据 的 价值 一 Excel . 


人 也 没有 明确 答案 。 也 许 有 人 会 想 驶 让 业务 负 
责 人 或 者 数据 工程 师 去 干 吧 。 但 是 我 想 我 们 应 
该 更 积极 地 去 对 筛 。 因为 数据 由 系统 生成 并 保存 ， 
所 以 ， 由 开发 或 者 运用 系统 的 芽 工程 师 ， 来 党 
握 数据 分 析 的 技能 进而 推进 数据 的 使 用 也 是 顺 
理 成 章 的 。 


现在 我 们 开始 动手 操作 ， 第 一 


步 我们 先 使 


用 Excel。 人 尽管 大 数据 埋藏 无 尽 珍 宝 , 但 是 分 
析 人 少量 数据 也 可 以 获得 一 些 有 用 信息 。 虽 然 距 
离 使 用 大 数据 还 很 ， 要 挑战 的 课题 还 很 多 ， 


但 作为 练习 是 可 以 的 。 
现在 我 们 来 对 照 表 1 的 流程 对 数据 进行 整 
理 , 这 属于 分 析 阶 段 C 收 集 整理 数据 的 相关 工作 。 


有 图 1 Excel 的 选择 界面 
Excel 选项 TE | 9 mes 
ee i 
公式 
校对 加 载 项 
和 名 称 位 置 类 型 
襄公 活动 应 用 程序 加 载 顶 
自 定义 Acrobat PDFMaker Office COM Addin Ci\..PDFMaker\Office\PDFMOfficeAddin.dl|l ”COM 加载 项 
Chinese Translation Addin CN\..ffice\Office12WMDDINS\TCSCCONV.DLL ”COM 加 载 项 
Office Special Symbol Input Add-in Ci\..Office\Office12WADDINS\SYMINPUT.DLL COM 加载 项 
信任 中 心 站 
资源 非 活 动 | 
Internet Assistant VBA Cof Office\Office1l2\Library\HTML.XLAM 。 Excel 加 载 项 
标签 打印 向 导 Ci\ice12\Library\Label Print\labelprintxlam Excel 加 戴 项 
不 可 见 内 容 CA\Microsoft Office\Office12\OFFRHD.DLL ”文档 检查 器 
查阅 向 导 lookup.xlam Exce| 加 载 项 
分 析 工具 库 analys32.xll Exce| 加 载 项 
分 析 工 具 库 - VBA atpvbaen.xlam Excel 加 载 项 
规划 求解 加 戴 项 solver.xlam Exce| 加 载 项 
欧元 工具 eurotool.xlam Excel 加 载 项 
人 名 (Outlook 电子 邮件 收 件 人 ) Cicrosoft shared\Smart Tag\FNAME.DLL ”智能 标记 
日 期 (智能 标记 列表 ) Ci\..microsoft shared\Smart Tag\MOFLDLL ”智能 标记 ~ 
加 载 项 :Acrobat PDFMaker Office COM Addin 
发 布 者 Adobe Systems, Incorporated 
位 置 : Ci\Program Files\Adobe\Acrobat 9.0\PDFMaker\Office\PDFMOfficeAddin.dll 
说 明 : 。” Acrobat PDFMaker Office COM Addin 
= 
基本 


学 习 数 据 分 析 ， 从 这 里 开始 
R. Mahout . 大 数据 一 


我 们 首先 安装 Excel 的 分 析 工 具 库 。 不 同 
的 Excel 版 本 安装 方法 多 少 有 点 区 别 。 基 本 上 
都 是 从 加 载 宏 选择 框 中 选择 分 析 工 具 库 。 微 软 
的 官方 网 站 上 有 安装 步 又， 请 见 链接 1。 

例如 Excel2007， 从 “Office 按 钮 ”选择 “Excel 

选项 ”， 在 打开 的 的 窗口 的 左边 选择 “加 载 项 ” 

(图 1), 然后 在 加 载 列表 下 面 的 “管理 ”下 拉 
框 中 选择 “Excel 加 载 项 ”, 按 下 “ 转 到 ”按钮 ， 
会 打开 用 于 选择 可 用 加 载 宏 的 对 话 框 ( 图 2 )。 
在 “可 用 加 载 宏 ” 框 中 ,选中 “分 析 工 具 库 ” 

选 框 ， 然 后 单 击 “ 确 定 ”。 就 开始 了 加 载 宏 
的 安装 。 安 装 完 成 后 ,“ 数 据 ” 沫 单 里 应 该 会 
加 入 “分 析 工 具 库 ”( 图 3 )。 


安装 分 析 工 具 库 


V 图 2 可 用 加 载 宏 的 选择 界面 


可 用 加 载 宏 个 ): 

[|Internet Assistant VPA 
加 | 标 深 打印 口号 

站 查阅 问号 


DJ 


浏览 他) 


让 im 
日 条 得 来 和 


分 析 工 具 库 
提供 用 于 统计 和 工程 分 析 的 数据 分 析 工 县 


公式 宗 阅 视图 Acrobat 


房 入 年 证 | 国 入 
Bm 
Sb 自 网 站 SR 人 来源 | 现 有 这 接 (全 89 


] 
| 


本 清除 = 二 二 
EE 


| 分 列 删除 “数据 “合并 计算 假设 分 析 | 村 取消 组 合 分 类 汇总 
重复 项 


.5 编 名 链接 罗 一 | 和 歼 高 级 


-EE 


有 效 性 a 


数据 分 析 入 门 必 备 知 识 


让 数据 分 析 工 具 助 你 一 臂 之 力 [Excel 篇 ] 
Ea 和 “和 


及 链接 1 添加 分 析 工 具 库 的 步骤 


2003 日 语 : http://office.microsoft.com/ja-jp/excel-help/HP001127724.aspx 
中 文 : http://office.microsoft.com/zh-cn/excel-help/HP005203873.aspx?CTT=1 
2007 日 语 : http://office.microsoft.com/ja-jp/excel-helbp/HP010021569.aspx?CTT=1 
中 文 : http://office.microsoft.com/zh-cn/excel-help/HP010090842.aspx?CTT=1 
2010 日 语 : http://office.microsoft.com/ja-jp/excel-helbp/HP010342659.aspx?CTT=1 
中 文 : http://office.microsoft.com/zh-cn/excel-help/HP010342762.aspx?CTT=1 
2013 日 语 : http:/office.microsoft.corja-jp/excel-help/HP102749007.aspx?CTT=1 
中 文 : http:W/office.microsoft.cor/zh-cn/excel-help/HA102748996.aspx?CTT=1 
i 环 表 2 餐馆“ 腊 舞 思 ” 的 销售 数据 
5 四 数据 总 览 _ 
月 日 气温 (C) 销售 额 (于 日 元 ) 
6/1 12 1800 
这 次 我 们 来 分 析 虚 构 的 北海 道 餐馆 “ 腊 舞 9 1080 
思 ” 的 销售 数据 (除了 笔者 正好 在 北海 道 进 行 . 2 
写作 以 外 ， 这 个 虚构 守 无 其 他 深意 )。 在 分 析 24 3816 
阶段 四 设 定 的 目标 里 ,“ 腊 舞 思 ”的 经 营 者 考 全 
11 1617 
虑 到 进货 以 及 将 来 的 发 展 , 希望 能 够 预测 销售 额 。 
考虑 到 来 餐馆 的 客流 量 和 气温 可 能 有 关 ， 我 们 
16 2520 
来 分 析 气 温和 销售 额 的 关系 。 ; es 
表 2 的 数据 是 气温 和 销售 额 的 信息 。 我 们 10 lA40 
15 2489 
来 用 表 3 的 函数 来 分 析 这 些 数据 。 计 算 结果 如 | 
表 4 所 示 。 这 些 信息 称 作 “ 描 述 统计 ”。 这 些 集 16 2489 
20 3000 
中 趋势 和 离 中 趋势 的 分 析 ， 可 以 用 于 把 握 趋势 
或 者 全 局 。 14 2100 
PA Ne AT vy 二 "J 小 全 已 SN 22 3498 
我 们 稍微 看 一 下 这 些 结果 数据 ， 就 能 知道 
这 里 面包 含 了 各 种 信息 。 比 如 ， 从 标准 方差 和 10 1446 
6/22 12 1602 
平均 值 可 以 看 出 数据 的 分 散 程度 比较 大 描述。 一 2 一 一 1 
统计 也 是 日 党 工作 和 对 话 中 经 常 被 使 用 的 大 家 12 1638 
11 1132 
就 乘 的 数 握 分 析 信 自 
NLCN 的 数据 分 析 信 /CA O TT 472 
这 些 描 述 统计 可 以 用 Excel 的 分 析 工 具 库 19 2844 
_ 6/28 24 3686 
oe ee 6/28 
米 计 和 卸 a 从 数据 ” 采 启动 分 析 工 具 库 o 24 3154 
在 打开 的 用 于 选择 想 要 使 用 的 功能 的 对 话 框 里 6/30 24 3722 


选择 “描述 统计 ”。 在 “输入 区 域 " 里 选择 气温 
和 销售 额 的 列 ， 选 择 “ 汇 总 统计 ” 复 选 框 , 按 。” ”出 表 5 的 结果 。 尽 管 数据 的 格式 会 有 有 所 差异 ， 
下 “确定 ”按钮 (图 4)。 确认 一 下 是 否 会 显示 。 ”如 果 改 变 表格 的 格式 的 话 ， 应 该 能 得 到 和 表 4 


3 了 7 


次 


名 


学 习 数 据 分 析 ， 从 这 里 开始 


A 
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环 表 3 描述 统计 和 号 数 
| Excel 函数 可 以 得 到 的 结果 


最 小 值 min {范围 } 
最 大 值 max {范围 } 


二 sum { 汇 围 } 


可 以 得 到 把 所 有 数 加 起 
平均 值 | average {范围 } | 来 的 中 心 值 。 受 极端 大 或 
者 极端 小 的 数据 的 影响 


可 以 得 到 把 数据 按 大 小 
,sr ，| 排 序 后 的 中 心 值 。 在 有 极 
中 央 值 | median { 演 围 } | 端 大 或 者 极端 小 的 数 的 情 
况 下 ， 这 个 值 比较 正确 
可 以 得 到 出 现 次 数 最 
多 的 值 。 如 果 最 频 值 有 
多 个 的 话 ， 数 据 里 有 可 
能 含有 不 同类 型 的 数据 
可 以 得 到 每 个 值 和 平均 
信之 间 的 差 。 用 于 了 解数 
标准 方差 | stdev {范围 } | 据 的 分 散 情 况 。 方 差 小 表 
明 数 据 比较 集中 ， 方 差 大 
表明 数据 比较 分 散 


最 频 值 | mode {范围 } 


相同 的 数值 。 使 用 分 析 工 具 库 ， 离 差 、 峰 度 、 
偏 度 等 描述 统计 也 日 动 被 计算 了 出 来 。 


此 央 制作 散 点 图 


接 春 我 们 制作 散 点 图 ,来 使 数据 的 分 散 情 
况 视 觉 化 。 从 某 单 的 “搬入 ”选项 中 选择 “图 标 ” 
中 的 “ 散 点 图 ”( 图 5)。 与 单纯 的 数据 比 起 来 ， 
散 点 图 更 为 生 观 。 在 数据 分 析 里 面 ， 效 据 的 呈 
现 方式 也 很 重要 。 数 据 的 视 党 化 技术 应 该 引起 
大 家 的 注意 。 


一 we 
ot 数据 分 析 的 参考 网 站 


uy AAA 


V 表 4 描述 统计 的 计算 结果 


气温 (CC) 


销售 额 ( 千 日 元 ) 


min (范围 ) 
max (范围 ) 
sum (范围 ) 
average ( 范围 ) 
median (范围 ) 
mode (范围 ) 
stdev (范围 ) 


输入 区 域 和 工 ): A$1 :$B$T 


分 组 方式 : 回 逐 列 已) 
避 隶 行 &) 


辐 标志 位 于 第 一 行 红 ) 


输出 选项 

加 输出 区 域 @@): 

辐 新 工作 表 组 字 ) : 
辐 新 工作 薄 外 ) 
汇总 统计 (8) 

加 | 平均 数 置 信和 度 8): 
回 第 天 大 值 必 ): 
辐 第 下 小 值 如 : 


$C$1 :$C$T 


a 明 中 制作 直方 图 


通过 制作 直方 图 可 以 更 清楚 地 了 解数 据 的 
核心 部 分 。 我 们 来 制作 一 下 销售 额 数据 的 直方 图 。 
这 需要 使 用 我 们 安 猴 好 的 分 析 工 具 库 。 和 前 面 
一 样 ， 从 “数据 ”有 琳 单 启动 “数据 分 析 ” ， 选 择 
“直方 图 ”。 

在 输入 范围 里 选择 销售 额 。 选 择 “ 制 作 图 形 ” 


除了 这 次 的 测试 数据 以 外 ， 读 者 可 以 访问 “科学 工具 箱 ” 网 站 (链接 2)， 获 取 学 习 用 数据 。 选 择 MS 
Gothic (内容 ) 一 MS Gothic (数据 资源 库 )， 会 发 现 很 多 用 于 学 习 的 数据 。 这 个 网 站 本 身 也 收录 了 很 多 学 


习 数 据 分 析 的 内 容 ， 相 当 不 氏 ， 和 希望 能 够 对 大 家 有 帮助 。 


http:Wrikanet2.jst.go.jp/contents/cp0530/start.htmn|# 


数据 分 析 入 门 必 备 知 识 


让 数据 分 析 工具 助 你 一 璧 之 力 [Excel 篇 ] 


选 框 。 按 下 “确定 ”按钮 就 会 生成 表 6 和 图 6。 1. 把 标题 设 成 “销售 人 额 的 分 布 ”。 
接 者 我 们 稍微 调整 一 下 直方 图 。 从 图 6 我 2. 删 除 右 边 和 左边 的 “频率 ”的 标签 
们 可 以 看 出 ， 数 据 区 间 是 自动 计算 出 来 的 ,不 3. 在 棒 岁 的 地 方 单 击 右键 ， 在 格式 设 定 里 
够 直观 。 我 们 可 以 参考 表 6 的 信息 ， 把 它 换 算 面 把 间 隅 设 成 “0 。 
成 易于 理解 的 单位 ， 像 表 7 那 样 制作 按 千 单位 本 拒 下 一 级 政 与 成 5500 
递增 的 数据 区 间 列 表 。 5. 调 整 模 竖 的 比例 ， 到 合适 为 止 。 


接着 重新 制作 直方 图 。 在 “输入 范围 ”下 
面 的 “数据 区 间 ” 里 选择 表 7 作 成 的 数据 。 然 可 | 洁 除 异常 什 
后 对 重新 画 出 来 的 表 , 按照 下 面 的 步 又 进行 调整 ， 
到 达 表 8 和 图 7 的 状态 就 完成 了 。 制作 了 散 点 图 和 直方 图 以 后 ， 我 们 可 以 发 
现 里 面 有 一 些 异常 值 。 以 上 面 的 数据 为 例 ， 有 


和 表 5 用 分 析 工 具 库 生成 的 描述 统 ? a 
ER 时 销售 额 会 出 现 异常 高 或 异常 低 (图 8)。 存 在 


气温 ('C) 销售 额 ( 干 日 元 ) 


这 样 的 数据 ， 尽 管 是 特例 ， 但 也 会 对 整体 结果 

SI 15.93333333 [EJ 2413.136667 ee RE 
标准 误差 | 0.934564049 | 标准 误差 | 186.1031263 LE 
中 央 值 15 2488.75 
最 频 值 24 2489 y 图 5 气温 和 销售 额 的 散 点 图 
5.118818111 1019.328803 
分 散 26.20229885 | 分 散 1 039 031.209 
尖 度 -1.246013172 计 0 -0.873000538 
偏 度 0.396655301 | 偏 度 0.1082428 
范围 15 4028.1 

小 值 9 471.9 
最 大 值 24 4500 
合计 478 72 394.1 
样本 数 30 样本 数 30 
VY 表 6 销售 额 的 直方 图 (数据 区 间 ) VY 图 6 销售 额 的 直方 图 (图 形 ) 


数据 区 间 


1277:52 


2083.14 

2888.76 数据 
\ 一 区 间 

3694 38 471.9 1277.5 2083.14 2888.76 3694.38 下 一 级 


大 OO ioo oo 
OO 


下 一 级 


有 


2 
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多 
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YY 表 7 调整 后 的 数据 区 间 


数据 区 间 
500 
1500 


(数据 区 间 ) 
数据 区 间 


V 表 8 加 工 后 的 销售 额 直方 图 


频率 
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Vy 图 7 ”加工 后 的 销售 额 直方 图 (图 表 ) 
要 


2DUU 


3500 


4500 


有 图 8 异常 值 


产 


在 这 里 我 们 采取 的 方法 是 消除 异常 值 ， 有 
时 会 采取 修正 的 方式 。 比 如 值 缺失 〈 称 为 “ 缺 
损 值 ” )， 就 再 要 恰当 处 理 。 有 时 假定 成 平均 值 
比较 合适 ， 有 时 干脆 清除 控 。 根 据 分 析 的 内 容 
和 方法 ， 必 须 恰当 处 理 寞 第 值 。 


EE 和 分 析 数 据 (Excel 篇 ) 


如 前 所 述 ， 在 数据 整理 的 同时 ， 其 实 也 在 


进行 数据 分 析 。 下 面 我 们 来 导出 公式 。 之 前 我 
们 动手 整理 好 了 数据 ， 现 在 来 稍微 学 一 些 统计 
分 析 知 识 ， 这 是 数据 分 析 的 基础 。 


四 是 什么 是 统计 分 析 


我 们 已 经 提 到 了 统计 、 统 计 和 学 、 统 计 分 析 


500 1500 2500 3500 4500 5500 
数据 区 间 


ee 


等 术语 ， 对 于 统计 这 个 词 大 家 多 少 有 所 了 解 。 
统计 就 是 从 数量 上 来 把 握 集合 (数据 集合 ) 的 
属性 ， 并 用 数值 和 图 表 来 予以 呈现 。 把 统计 系 
统 化 的 学 问 就 是 统计 学 ， 根 据 统计 学 进行 分 析 
就 称 为 统计 分 析 。 


此 央 描述 统计 和 推论 统计 


在 调查 对 象 都 已 全 部 准备 好 的 情形 下 ， 对 
这 些 全 部 的 数据 即 母 集合 (population ) 进行 的 
分 析 属 于 描述 统计 学 (descriptive statistics ) 的 
范畴 。 在 只 有 一 部 分 调查 对 象 准 备 好 的 情形 
下 ,对 这 一 部 分 数据 即 样本 (sample ) 进行 分 析 ， 
进而 推测 母 集合 ， 属 于 推论 统计 学 (inferential 
statistics ) 的 范畴 。 在 现实 中 ， 能 把 握 全 部 调查 
对 象 的 情形 很 少 ， 所 以 应 用 的 多 是 推论 统计 。 
数理 统计 学 以 及 多 变量 分 析 能 区 别 其 不 同 的 关 
联 性 ， 在 此 我 们 不 作 获 述 。 


ai 有 定量 数据 和 定性 数据 


数据 可 以 分 为 表示 数量 的 定量 数据 和 表示 
分 类 的 定性 数据 。 可 以 说 气温 或 者 体重 是 定量 
数据 ， 天 气 和 性 别 则 是 定性 数据 。 把 这 些 数据 
再 进行 细 分 的 例子 ， 如 表 9 所 示 。 


数据 分 析 入 门 必 备 知 识 


让 数据 分 析 工 具 助 你 一 臂 之 力 [Excel 篇 ] 


yr FF 


这 些 分 类 对 于 选择 分 析 方 法 非常 重要 。 统 商 数 。 指 定 第 一 变量 为 气温 的 值 ， 指 定 第 二 变 
i a SE 量 为 销售 额 的 值 ， 结 果 是 0.9767782， 表 明 两 
据 类 型 的 分 析 方 法 ， 想 全 面 掌 握 的 读者 不 妨 看 者 有 非常 强 的 关联 关系 。 这 里 必须 注意 ， 前 文 


一 下 。 经 说 过 的 ， 有 关联 关系 并 不 意味 着 有 因果 关 
系 。 在 这 次 的 例子 里 ， 尽 管 数值 显示 随 着 气温 
8 相关 上 升 销售 额 也 会 上 升 ， 但 并 没有 显示 气温 上 升 


是 销售 额 上 升 的 原因 ， 我 们 还 需要 考虑 其 他 
相关 就 是 从 现象 上 推论 两 种 数据 是 否 按照 。 因素。 
相同 的 趋势 变动 。 表 示 相 同 趋 势 变动 程度 的 值 
叫做 “相关 系数 "。 相 同 趋势 只 表明 相互 的 统 时 回归 分 析 
计 关联 ， 并 不 表示 一 方 是 原因 另 一 方 是 结果 的 


因果 关系 。 比 如 , 从 相关 系数 上 我 们 知道 “气温 ” 对 气温 和 销售 额 进行 关联 分 析 ， 计 算出 相 
和 “销售 额 ” 有 相同 的 变动 趋势 ， 但 原因 是 什 关系 数 后 ， 尽 管 可 以 知道 两 者 的 关系 ， 但 还 

么 就 必须 人 为 分 析 。 能 进行 预测 。 接 着 ， 再 进行 用 于 预测 分 析 的 回 

如 表 10 所 示 ， 根 据 两 种 数据 的 分 类 ， 不 同 归 分 析 。 在 气温 (x) 是 原因 ， 销 售 额 (y) 是 结 

类 型 统计 关联 的 分 析 计 算 方法 是 不 同 的 ， 这 一 果 的 情形 下 ， 把 x 对 y 的 影响 用 线性 关系 表示 出 

点 需要 注意 。 由 于 这 次 分 析 的 是 定量 数据 和 年 来 。 这 时 x 叫 做 说 明 变 量 (explanatory variable ) 

量 数 据 ， 所 以 我 们 采用 单 相 关系 数 。 或 者 自 变 量 ，y 叫 做 目的 变量 (criterion variable ) 


这 个 值 用 Excel 困 数 可 以 很 容易 算出 。 对 清 或 者 因 变 量 。 这 次 仅仅 是 用 Excel 来 导出 回归 公 
除了 异常 值 的 气温 和 销售 额 数据 应 用 CORREL 式 ， 实 际 的 回归 分 析 是 按照 下 面 的 流程 实施 的 。 


V 链接 3 统计 学 入 门 网 站 


统计 学 入 门 http:/www.snap—tck.com/room04/cO1/stat/stat02/stat0201.html 


VY 表 9 数据 分 类 


分 类 说 明 例子 
人 比例 尺度 ( ratio scale ) “| 数值 之 间 存 在 比例 关系 ， 可 以 进行 四 则 运算 (加 减 乘除 ) | 金额 ， 速 度 ， 时 间 
定量 
本 间隔 尺度 ( interval scale ) | 存在 顺序 关系 ， 连 续 的 ， 可 以 进行 加 减 运 算 温度 ;公历 


( 
( 


YY 表 10 数据 类 型 组 合 对 应 的 分 析 方 法 


指标 取得 的 值 


单 相 关系 数 11 


相关 比 0 一 1 
克拉 默 相 关系 数 0 一 1 


定量 数据 和 定量 数据 
定量 数据 和 定性 数据 
定性 数据 和 定性 数据 
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特辑 1 让 我 们 重新 审 学 习 数 据 分 析 ， 从 这 里 开始 
2 一 Excel.R. Mahout . 大 数据 一 


CA 


1 绘制 目的 变量 和 说 明 变量 的 散 点 图 。 性 "， 在 复 选 框 里 选择 “显示 公式 (E)” 和 “ 显 
2. 导出 回归 公式 。 示 有 平方 值 (R)( 图 9)。 
3 .确认 回归 公式 的 精度 。 
4 .推测 母 集合 ee 1 
5 .进行 预测 。 本 
趋势 线 选 项 下 
全 
a 明 是 进行 单 回归 分 析 ”7 只 
只 有 一 种 说 明 变量 的 回归 分 析 称 作 单 回 归 
分 析 ， 我 们 用 Excel 来 实施 这 个 分 析 。 
吵 添加 趋势 线 
用 清除 了 异常 值得 数据 重新 制作 散 点 图 。 E 
在 这 个 散 点 图 上 画 趋 势 线 。 趋 势 线 是 由 回归 分 
析 导 出 的 回归 公式 (y=ax+b) 的 图 形 。 选 择 图 形 ， np, . 
按照 链接 4 的 步 又 添加 趋势 线 。 选 项 上 选择 “ 线 
性 ”， 在 复 选 框 里 选择 “显示 公式 (E)” 和 “ 显 te 
四 ， 加 自动 向 线性 (系列 2) 
RT /I 人 (RR)s 0 
Excel 2013 的 界面 发 生 了 很 大 变化 ， 具 体 这 执 预测 
步骤 如 下 。 选 择 图 表 ， 单 击 图 表 右 上 角 的 “图 向 前 日 。 |00 | 周期 
表 元 素 " 按钮 “+”， 选 中 “趋势 线 " 框 。 单 击 周期 
“趋势 线 ”旁边 的 第 头 ， 单 击 “ 其 他 选项 ”。 在 > 
右边 会 显示 出 设 定单 击 图 形 的 图 标 ,在 “ 赵 让 
[二 显示 民 平方 值 (R) 
势 线 格式 ” 窗 格 中 的 “趋势 线 选项 ”下 选择 “ 线 


V 链接 4 添加 趋势 线 


语 : http://office.microsoft.com/ja—jp/excel-help/HP005198462.aspx 
中 文 : http://office.microsoft.com/zh-cn/excel-help/HP005198462.aspx?CTT=1 

语 : http://office.microsoft.com/ja-jp/excel-help/HP010007461.aspx?CTT=1#BMaddtrendline 

xX: http://office.microsoft.com/zh—cn/excel-help/HP0O10007461.aspx?CTT=1 


2007 


语 : http://office.microsoft.com/ja—jp/excel-help/HP010342158.aspx 

多 : http://office.microsoft.com/zh—cn/excel-help/HP0O10342158.aspx?CTT=1 
日 语 : http://office.microsoft.com/ja-jp/excel-help/HP102809798.aspx 
中 文 : http://office.microsoft.com/zh-cn/excel-help/HA102809798.aspx?CTT=1 


2013 
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图 10 里 的 公式 就 是 回归 公式 。 由 气温 (x) 
的 值 能 够 计算 出 销售 额 。 把 预想 的 气温 值 乘 以 
167.35 再 减 去 281.55 就 能 得 到 销售 额 的 预测 值 。 
R 平方 值 ， 简 单 说 就 是 表示 回归 公式 精度 的 值 。 
越 接近 1 精度 越 高 ， 例 子 中 的 值 表 示 得 到 的 回 
归公 式 的 可 信 度 非常 高 。 

也 可 以 用 和 趋势 线 不 同 的 方法 计算 回归 公 
式 。 从 菜单 启动 分 析 工 具 库 , 选择 “回归 分 析 ”， 
在 “ 因 变 量 y 的 范围 ”里 选择 销售 额 的 值 ， 在 


数据 分 析 入 门 必 备 知识 
让 数据 分 析 工 


具 助 你 一 民 之 力 [Excel 篇 ] 


Ww 7 
上 ©>, 
牧 刻 ”> 小 结 


本 章 我 们 讲解 了 数据 分 析 的 基础 知识 及 用 
Excel 进行 数据 分 析 的 一 些 方法 。 在 接 下 来 的 
章节 里 ， 我 们 会 介绍 使 用 更 加 专业 的 数据 分 析 
工具 的 分 析 方 法 。 


V 图 10 ”趋势 线 和 回归 公式 


王 
“ 自 变量 x 的 范围 ”里 选择 气温 的 值 。 按 下 “ 确 
4 
定 ” 按 钮 ， 就 会 显示 出 分 析 结 果 。 可 以 看 出 ， 3500 
- [一 > Sp 3000 
图 11 里 背景 色 不同 地 方 的 值 和 前 面 图 表 里 的 值 人 
是 一 致 的 。 2000 
1500 
另外 ， 在 实际 分 析 工 作 中 ， 有 时 应 使 用 修 1000 
、 有 、 500 
正 R 平 方 值 ， 有 时 使 用 t 或 者 P 值 ， 版 面 所 限 ， . 
在 此 不 作 详 述 。 
V 图 11 使 用 分 析 工 具 库 得 到 的 回归 分 析 结 果 
、 本 
回归 统计 
Multiple R 0.976778243 
R Square 0.954095735 
Adjusted R Square 0.952330187 
标准 误差 197.1300769 
观测 值 28 
方差 分 析 
df SS MS F Significance F 
回归 分 析 1 20999939.86 20999939.86 540.3961773 6.36544E-19 
残 差 1010366.948 38860.26722 
避 计 22010306.8 
Intercept IE28I5523909 121.545944 |-2.316427695 | 0.028679251 | -531.393657 |-31.71112486 | -531.393657 |-31.71112486 
XVariable 1 M67°34277048%| 7.198858297 | 23.24642289 6.37E-19 152.5502392 | 182.1451695 | 152.5502392 | 182.1451695 
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承接 前 一 章 ， 我 们 来 进 
-Mahout。 


了 单 回 归 分 析 。 
有 两 种 以 上 解释 变量 的 回归 分 析 叫 做 多 元 回归 
分 析 。 尽 管 也 可 以 用 Excel 做 多 元 回归 分 析 ， 
但 这 次 我 们 用 R 来 分 析 。 


上 一 曹 ， 我 们 用 Excel 进 


0 RR 是 什么 


R( 也 叫 R 语 言 ) 是 用 于 统计 分 析 的 开源 软 
件 。 包括 统计 分 析 的 编程 语言 及 其 运行 环境 
在 教学 和 实际 工作 中 普及 很 广 。 在 提供 的 扩展 
包 里 包含 了 最 新 的 研究 成 果 和 方便 的 功能 。R 
本 体 是 用 CUI 界 面 ( 含 有 简单 的 GUI) 操作 的 。 
复杂 的 分 析 需 要 编写 程序 。R 的 高 级 CUI 环 境 


V 链接 1 下 载 民 模 块 的 网 站 


数据 分 析 ; ey sr 
让 数据 分 析 工 具 助 你 
一 展 之 力 


从 这 里 开始 
SAN 


[IR . Mahout 篇 


行 数 据 分 析 的 实践 。 本 章 使 用 更 加 专业 的 分 析 工 具 尺 和 


有 RCommander 和 RStudio。 这 里 我 们 只 使 用 R 


单 体 。 


sa 有 安 安装 R 


站 和 完 下 载 R 的 模块 。 官方 网 站 里 有 镜像 服 
务 需 的 链接 。 比 如 可 以 从 兵 库 教育 大 学 的 网 站 
下 载 (链接 1)。 

安 狐 方法 和 通常 软件 一 样 ， 在 Windows 或 
者 Mac 操作 系统 下 ， 只 要 点 击 几 下 鼠标 就 可 完 
成 安 疼 ， 不 会 有 什么 麻烦 (链接 2)。 


as 有 尝试 


接 下 来 ， 局 动人 试用 一 下 。 从 及 的 图 标 局 动 
就 会 打开 及 的 运行 窗口 (图 1， 画 面 是 Windows 


http://cran.r—project.org/doc/mManuals/r—release/R-admin.html#Installing—~R-under-OS—X 


Unix http://cran.r—project.org/doc/mManuals/r—release/R-admin.html#Installing~R-under-Unix_002dalikes 


数据 分 析 入 门 必 备 知识 


让 数据 分 析 工 具 助 你 
Ts i 


有 图 1 


陋 
民 RGui (32-bit) 
Fle Edit View Misc Packages Windows Help 


民 的 运行 界面 


R version 3.0.2 (2013-09-25) -—- "Frisbee Sailing" 
Copyright (人 (C) 2013 The R Foundation for Statistical Computing 
Platform: i386-w64-mingw32/i386 (32-bit) 


R is free software and comes with ABSOLUTELY NO WARRANTY. 
You are welcome to redistribute it under certain conditions. 
Type 'license()' or 'licence()' for distribution details. 


R is a collaborative project with many contributors. 
| Type 'contributors()' for more information and 
'citation()' on how to cite R or R packages in publications. 


Type 'demo()' for some demos, 'help{()' for on-line help, or 
'help.start()' for an HIML browser interface to help. 
Type 'G()' to quit R. 


Nl > r start<-"hello 及 ! 
> r start 
I [1] “hello R!'™ 


> 


4 


版 的 )。 有 不 用 定义 类 型 。 输 入 r start<-"hello R!" 
按 下 回 车 键 , 输入 r start， 按 下 回 车 键 后 就 会 
显示 hello R!。 


sa 胃 是 多 元 回归 分 析 


表 1 是 在 我 们 分 析 过 的 “ 腊 舞 思 ” 的 销售 数 
据 里 ， 加 入 和 餐馆 前 通过 的 行人 数 (清除 了 前 面 草 
亨 分 析出 的 异常 值 )。 我 们 束 用 这 些 数 据 来 分 析 。 

在 R 的 运行 窗口 里 输入 图 2 的 内 容 。 确 认 


运行 这 些 命令 是 否 能 得 到 如 图 3 和 图 4 的 结 


Y 表 1 餐馆 腊 舞 思 的 销售 数据 (+ 行人 ) 


采 。 图 3 是 散 点 图 ， 可 以 从 视觉 上 了解 各 个 变 
量 的 关联 关系 。 回 右上 倾 料 表示 正 相 关 ， 回 右 
下 倾斜 表示 负 相 关 。 图 4 的 Intercept 称 作 切 片 ， 
表示 和 坐标 轴 的 交点 。air 和 passer 表 示 对 气温 
和 行人 变量 的 倾 料 ， 是 俩 回归 系数 。 用 这 些 信 
来 构建 多 元 回归 公式 。 新 的 多 元 回归 公式 如 下 
所 示 。 


y( 销 信和 额 )=xl( 气 温 ) x 162.1573 二 x2( 行 人 ) 
x 0.1141 - 290.0759 


在 实际 分 析 工 作 中 ， 经 稼 要 探讨 几 十 种 变 
量 。 变 量 多 了 ， 要 考虑 的 内 容 就 会 增加 。 所 以 
构建 解释 变量 尽量 少 ， 且 精度 高 的 多 元 回归 公 
式 非常 重要 。 构 建 多 元 回归 公式 的 方法 有 下 面 
几 种 。 


变量 增 减 法 。 


。 基 于 信息 量 准 则 的 方法 。 


使 用 R 的 step 函数 ， 可 以 基于 信息 量 准 则 ， 
对 变量 进行 人 研究。 运行 图 5 的 命令 。 从 结果 可 


月 日 气温 ( 习 ) 行人 销售 额 ( 千 日 元 ) 月 日 ”气温 (C) 行人 销售 额 ( 千 日 元 ) 
6/1 们 625 1800 6/16 975 3000 
6/2 9 350 1080 6/17 975 2850 
6/3 15 575 2340 6/18 14 685 2100 
6/4 21 1195 3465 6/19 22 1325 3498 
6/5 24 1185 3816 6/20 14 825 2489 
6/6 20 825 3120 6/21 10 425 1446 
6/7 11 575 1617 6/22 605 1602 
6/8 12 285 1836 6/23 11 585 1452 
6/9 24 1425 3758 6/24 12 645 1638 

6/10 16 825 2520 6/25 11 975 1132 

6/11 9 577 1040 6/27 19 875 2844 

6/12 10 565 1440 6/28 24 i625 3686 

6/13 15 805 2489 6/29 24 875 3154 

6/15 16 825 2489 6/30 24 1125 3722 
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40 


多 


学 习 数 据 分 析 ， 从 这 里 开始 


— 


有 图 2 民 命 令 


DD 读 入 气温 值 


口 让 我 们 重新 审 
特辑 1 视 数据 的 价值 一 Excel. R. Mahout . 大 数据 一 


air<-c(12,9,15,21,24,20,11,12,24,16,9,10,15,16,20,19,14,22,14,10,12,11,12,11,19,24,24,24) 


BD 读 入 行人 数 
645,975,875,1025,875,1125) 


DD 读 入 销售 额 


passer<-c(625,350,575,1195,1185,825,575,285,1425,825,577,565,805,825,975,975,685,1325,825,425,605,585, 


sales<-c(1860,1080,2340,3465,3816,3120,1617,1836,3758,2520,1040,14460,2489,2489,3000,2850,2106 ,3498 ,2489， 


1446,1602,1452,1638,1132,2844,3686,3154,3722) 


D 建立 数据 集 


rausudata<-data.frame(air,passer, sales) 


DD 表示 数据 集 的 内 容 


rausudata 


DD 建立 相关 系数 的 行列 式 


round(cor(rausudata),4) 


DD 用 散 点 图 确认 全 体 的 关系 


pairs(rausudata,pch=21,bg=”red” ,cex=2) 


DD 用 销售 额 以 外 的 信息 进行 多 元 回归 分 析 


(rausudata.lm<-lm(sales~. ,data=rausudata)) 


V 图 4 ” 民 命 令 的 运行 结 


Call: 
lIm(formula = sales ~ ., data = rausudata) 


Coefficients: 
(Intercept) ailr passer 
-290.0759 162.1573 0.1141 


以 看 出 ， 对 于 本 次 数据 ， 最 合适 的 模型 是 只 使 
用 气温 的 单 回 归公 式 。 

相信 大 家 已 经 明白 ， 用 RR 语言 可 以 很 方便 
地 计算 多 元 回归 分 析 。 在 实际 工作 中 数据 分 析 


不 会 这 么 人 简单， 要 考虑 会 的 变量 很 多 ， 必 须 探 
讨 诸 如 应 该 采用 哪个 变量 ,回归 公式 的 精度 有 
没有 问题 等 。 


lofe 


处理 大 数据 


AR 


N 


到 现在 为 止 ， 我 们 还 没有 分 析 过 “大 数据 ” 


类 型 的 大 量 数据 。 不 过 不 涉及 大 数据 也 有 很 多 
可 以 分 析 的 事情 。 在 实际 的 分 析 工 作 中 ， 要 根 
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有 图 5 step 国 数 及 运行 结果 


> rausudata. 1m2<-step(rausudata.1m) 


Start: ALIC=299.57 
Sales ~ air + passer 


DV Ne Se RSS AIC 
- passer |1 8552 1009954 297.81 
<none> 1001403 299.57 
= lr ] 5889519 6890922 351.58 


Step: ALIC=297.81 
sales ~ air 


Df Sum of Sq RSS AIC 
<none> 1009954 297.81 
- alr 1 20995991 22005945 382.09 


据 设 定 的 目标 ,慎重 判断 要 分 析 数 据 到 哪 一 层 
次 。 但 是 ， 就 像 分 类 垃圾 邮件 那样 ， 没 有 大 量 
的 数据 分 析 就 不 能 得 到 期 望 的 结 末 。 这 种 情况 
下 ， 就 要 用 到 大 型 数据 处 理 平台 Mahout 了 。 


中 机 器 学 习 


机 器 学 习 (Machine Learning) 是 人 工 智 
能 (Artificial Intelligence ) 的 一 个 研究 领域 ， 
目标 是 让 计算 机 拥有 和 人 一 样 的 学 习 能 力 。 
比如 “从 多 个 图 像 里 面具 抽取 出 有 苹果 的 图 
像 ”， 机 器 学 习 大 致 会 按照 下 面 的 步骤 来 实现 。 
1. 准 备用 于 识别 苹果 的 图 像样 品 。 
2. 从 图 像样 品 学 习 特 征 ( 颜 色 以 及 形状 
等 )， 开 发 抽取 和 管理 的 程序 。 
3. 使 用 学 到 的 信息 ， 对 大 量 照 有 苹果 的 图 
像 进 行 判 断 。 


不 是 开发 百 接 解 决 问题 的 处 理 程序 ， 而 是 
开发 “学 习 怎 么 解决 问题 的 方法 ”的 处 理 程序 。 
这 里 的 学 习 以 及 判断 都 要 用 到 统计 ， 所 以 也 叫 
做 统计 式 机 带 学 习 ， 可 以 说 统计 和 机 带 学 习 的 
界线 已 经 很 模糊 了 。 

与 一 般 统计 解析 相 比 ， 适 合用 机 带 学 习 的 
领域 有 如 下 特征 : 由 学 习 用 的 数据 越 多 准确 
性 越 高 (能 得 到 期 望 的 结果 )。 凶 随 着 要 处 理 
的 数据 的 增多 ,计算 量 也 增加 (处理 时 间 长 )。 
为 了 加 强 机 融和 学 习 的 能 力 ， 兴 起 了 用 处 理 大 数 
据 方法 进行 机 融和 学 习 的 漳 流 。 


| 两 种 学 习 


机 奉 学习 的 问题 大 致 可 分 为 “监督 学 习 ” 
(Sapervisedlearning) 和 “无 监督 学 习 ”(unspervised 
learning) 两 类 。 尽 管 也 有 介 于 两 者 之 间 的 “部 
分 监督 ”以 及 “强化 学 习 ” 等 种 类 ， 但 前 两 类 
是 最 基本 的 , 必须 加 以 理解 。 这 里 我 们 挑战 “ 监 
本 


月 = 这 一 类 。 


数据 分 析 入 门 必 备 知识 
让 数据 分 析 工 具 助 你 一 辟 之 力 [R.: Mahout 篇 ] 
. re es 二 起 4 ra 0 


“监督 学 习 ” 是 指 用 多 个 叫做 学 习 数 据 (也 
叫做 训练 数据 ) 的 配套 输入 输出 的 样品 数据 进 
行 学 习 。 运 用 学 习 的 结果， 一 旦 输入 数据 就 能 
正确 地 输出 预测 结果 。 因 为 这 种 处 理 所 需 要 的 
正确 数据 ,来 源 于 知道 正确 答案 的 教师 那里 ， 
所 以 叫做 “监督 和 学习”。 


中 无 监督 学 习 


“无 监督 学 习 ” 是 指 只 提供 输入 数据 。 和 
监督 学 习 不 同 ， 此 种 情况 下 ， 没 有 给 出 用 于 判 
源 的 正确 数据 ， 适 用 的 领域 自然 也 受 限 制 。 没 
给 正确 解答 ， 就 必须 设 定 某 种 判定 标准 来 进行 
处 理 。 也 许 有 人 会 认为 “监督 学 习 ” 比 较 好 用 ， 
但 准备 正确 答案 数据 的 费用 很 高 ， 近 几 年 针对 
“无 监督 和 学习” 的 研究 很 活跃 。 


= Mahout 


有 许多 读者 已 经 对 Mahout 有 所 了 解 ， 在 
此 再 简单 地 介绍 一 下 。Mahout 是 用 于 机 器 学 
习 的 程序 库 ， 是 由 Apache 软件 基金 会 开发 的 
开源 软件 (链接 3 )。 

图 6 是 Mahout 的 架构 , 算法 大 致 分 为 5 
类 , 其 使 用 实例 有 , 商品 推荐 (Recommenders )、 
新 闻 组 聚 类 (Clustering)、 邮 件 软件 的 垃圾 邮 
件 分 类 (Classification ) 等 。 高 频 商 品 组 合 数据 
挖掘 法 (Frequent pattern mining ) 方面 的 实例 
如 ， 通 过 POS 终 端 数 据 得 出 “同时 购买 啤酒 和 
婴儿 尿布 的 顾客 比较 多 ”的 信息 。 商 品 送 货车 
配 车 计划 的 最 优化 ， 则 是 遗传 算法 (Genetic ) 
的 应 用 实例 。 


TER, 
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cp 让 我 们 重新 审 学 习 数 据 分 析 ， 从 这 里 开始 
视 数 据 的 价值 一 Excel.R. Mahout . 大 数据 一 


a I 


Mahout 的 机 怖 学 习 算 法 超过 40 个 ， 因 其 可 。 也 可 以 用 yum search jdk 搜索 OpenJDK， 
用 于 分 散 处 理 海 量 数 据 的 平台 Apache Hadoop 然后 安 获 
(链接 3)， 近 几 年 受到 极 大 关注 。 2. 安装 Apache Maven 


。 添加 Maven 到 运行 路 径 ， 运 行 mvn-version ， 


使 之 能 显示 Maven 的 信息 

s 胃 朋 构建 环境 人 

接着 ， 我 们 按照 以 下 步 又, 来 构建 Mahout 我 们 从 第 三 步 的 Mahout 的 安装 开始 解说 。 
的 运 。 如 果 是 Mac 或 者 Linux 操 作 系 笔者 撰写 本 稿 时 ，Mahout 的 最 新 版 本 是 0.7。 
统 ， 很 快 就 可 以 构建 环境 ， 如 有 果 是 Windows 操 从 链接 4 下 载 官方 版 本 mahout-distribution- 
作 系 统 ， 要 先 安装 Cygwin， 以 便 shell 可 以 运 0.7-src.tar.bz2。 下 载 好 以 后 按照 图 7 的 步骤 安装 。 
行 。 由 于 Windows 操 作 系 统 抹 烦 一 些 ， 笔 者 在 
Amazon EC2 上 用 CentOS 操 作 系统 构建 环境 。 ,8 四 | 用 Mahout 进 行 分 类 的 理由 

1. 安装 Java6 

。 添 加 Java 到 运行 路 径 里 ， 运 行 Java-version ， 正如 前 文 所 述 ，Mahout 的 特点 是 可 用 于 

使 之 能 显示 Java 的 信息 。 Hadoop 。 分 类 属于 有 教师 的 机 需 学 习 ， 因 而 


V 链接 3 ”下载 迟 模块 的 网 站 
网 站 名 URL 


Java SE Downloads | http:/Wwww.oracle.com/technetwork/java/javase/downloads/index.html 


Apache Maven http://maven.apache.org/ 
Apache Mahout http://mahout.apache.org/ 


Apache Hadoop http://hadoop.apache.org/ 


有 链接 4 ”Mahout 下 载 网 站 
网 站 名 URL 


Apache Mahout |https://cwiki.apache.org/confluence/display/MAHOUT/Downloads 


有 图 6 ”Mahout 的 架构 


Applications 
Frequent Pattern 


Genetic Mining Glassifiaaiian aa Recommenders 


寅 频 商品 组 合 A 聚 类 推荐 


Utilities Math Collections 和 
Lucene/Vectorizer Vectors/Matrices/SVD (primitives) F 


※ 参 考 : http://www.slideshare.net/hamadakoichi/mahout-recommendation-mahout-jp-tokyowebmining-14th 
https://cwiki.apache.org/confluence/display/MAHOUT/Algorithms 
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需要 准备 大 量 的 学 习 数 据 。 在 学 习 数 据 超过 
100 万 项 的 情况 下 ,单单 处 理学 习 就 要 花 很 多 
时 间 。 但 如 果 在 Hadoop 上 运行 ,时间 就 可 以 
缩短 。 而 且 Hadoop 能 有 效 缩短 实际 运行 时 处 
理 分 类 的 时 间 。 

当然 , 如同 这 次 的 示例 ,没有 Hadoop， 
Mahout 也 能 独立 运行 ,Mahout 是 用 Java 开 发 的 ， 
在 维护 以 及 API 的 易 用 性 上 也 有 优势 。 


-al Mahout 的 分 类 算法 


Mahout 包 含 了 以 下 分 类 算法 。 这 里 使 用 村 


有 图 7 安装 Mahout 
DD 解 开 压缩 的 模块 


$ tar jxvf mahout-distribution-0.7-src.tar.bz2 


3 移动 到 解 开 压 缩 后 的 文件 目录 


$ cd mahout=-distribution-0.7 


具 助 你 一 璧 之 力 [R . Mahout 篇 ] 


1 I sd 时 si 


素 贝 叶 斯 算法 。Mahout 实 现 的 朴素 贝 叶 斯 算法 
只 适用 文本 格式 的 数据 。 大 致 来 讲 ， 可 以 有 效 
地 处 理 100 万 项 以 上 的 数据 。 


1. 随机 梯度 下 降 ( Stochastic Gradient Descent ) 
OnlineLogistic, Regression, AdaptiveLogistic 
Regression, CrossFoldLearner 

2. 支 持 向 量 机 (Support Vector Machine) 

3. 朴 素 贝 叶 斯 (Naive Bayers ) 

4. 增 强 型 朴素 贝 叶 斯 (Complementary naive 

Bayers ) 
5. 随 机 森林 (人 Random forests ) 


火 上 面 的 五 种 方法 ， 数 字 越 大 ， 学 习 成 本 越 高 。 


日 用 Maven 命令 安装 特别 花 时 间 。 用 mvn install -Dmaven .test.skip=true 这 样 省 略 测试 的 命令 安装 的 话 会 快 一 些 


(但 不 推荐 使 用 ) 


$ mvn install 


9 运行 mahout 命 令 


$ bin/mahout 


8 分 类 作业 的 流程 


v 
~ 
构建 模型 gy 
学 习 数 据 
(training data) 
原始 数据 一 > 加 工 处 理 一 一 > ”学 习 算法 
评价 数据 
(test data) ee 分 类 结果 
各 se 一 二 一 一 [ea 
) WE 一 一 
| 解答 验证 i 
Ny J 
应 用 模型 失 入 数据 We 
原始 数据 一 加 工 处 理 一 一 一 一 > 模型 ”一 > | 
人 EE 
ee. 
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上 ，。 ”让 我 们 重新 审 
特辑 1 视 数据 的 价值 


A 
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fi 


多 


一 EXxcel. R. Mahout ， 


"a 流程 


接 下 来 按照 图 8 所 示 来 实现 分 类 。 首 先 
准备 用 于 学 习 以 及 用 于 评价 学 习 结 果 的 数据 。 
把 这 些 数据 加 工 成 目标 变量 ( 想 要 判断 的 分 类 
结果 ) 和 解释 变量 ,分 为 用 于 学习 的 数据 和 用 
于 评价 的 数据 。 用 学 习 数 据 构 建 模型 ， 用 评 
价 数 据 评 价 模型 的 正确 性 。 评 价 数据 里 包含 
正确 的 日 标 变 量 , 可 以 用 来 验证 分 类 结果 推 


测 的 目标 变量 。 


V 表 2 ”用 于 学 习 的 内 容 一 览 表 


学 习 数 据 分 析 ， 从 这 里 开始 


大 数据 一 


"al 分 类 


这 次 的 学 习 数 据 我 们 用 Wikipedia。 日 语 
数据 需要 用 MeCab 进行 形态 分 析 加 工 处 理 。 
简单 起 见 ， 我 们 用 英语 的 内 容 。 

使 用 表 2 的 URL， 把 浏览 器 里 显示 的 文 
本 全 部 选中 、 复 制 ， 然 后 保存 到 文件 里 做 成 
测试 数据 。 完 成 后 复制 到 Mahout 的 安装 目录 
下 。 比 如 Mahout 的 安 猴 目录 是 /home/mahout/ 
mahout-distribution-0.7， 那 么 就 把 数据 复制 到 


目录 文件 ( -txt URL 内 容 
mathematics http:/en.wikipedla.org/wlkyVMathematics 数学 
probability http:/en.wikipedia.org/wikiProbalility 概率 论 
statistics http://en.wikipedia.org/Wwiki/Statistics 统计 学 
vector http://en.wikipedia.org/WwikIi/Vector_calculus 回 量 分 析 

ee algebra http://en.wikipedia.org/Wwiki/Algebra 代数 昌 
geometry http://en.wikipedia.org/Wwiki/Geometry 几何 学 
analysis http:/en.wikipedia.org/wiki/Mathematics_analysis 解析 分 析 
set http://en.wikipedia.org/wiki/Set_thoery 集合 论 
info http://en.wikipedia.org/wiki/Information_engineering 信息 工程 
calculus http://en.wikipedia.org/Wiki/Calculus 微 积分 
jurisprudence http://en.wikipedia.org/WikIi/Jurisprudence 
judiclary http://en.wikipedia.org/WwikIl/Judiciary 
legislation http://en.wikipedia.org/wiki/Legislation WE 
public http://en.wikipedia.org/wiki/Public_law 公法 

eo CIVl| http:/en.wikipedia.org/wikVCivil_Law_ (area ) 民法 
criminal http://en.wikipedia.org/Wiki/Criminal_law 刑法 
international http://en.wikipedia.org/wiki/International_law 国际 法 
philosophy http://en.wikipedia.org/wiki/Philosophy_of_law 
history http://en.wikipedia.org/Wwiki/Legal_history 
comparative http://en.wikipedia.org/Wwiki/Comparative_law 比较 法 学 
medicine http://en.wikipedia.org/wiki/Medicine 医学 
wmedicine http://en.wikipedia.org/Wiki/Western_medicine 西医 学 
tcmedicine http://en.wikipedia.org/wiki/Traditiona_Chinese_medicine 中 医学 
cardiology http://en.wikipedia.org/Wwiki/Cardiology 循环 器 学 

ee gastroenterology | http://en.wikipedia.org/Wiki/Gastroenterology 站 第 站 字 
pulmonology http:/en.wikipedia.org/wikVPulmonology 呼吸 器 学 
nephrology http://en.wikipedlia.org/Wwiki/Nephrology 肾脏 学 
endocrinology http://en.wikipedia.org/Wwiki/Endocrinology 内 分 泌 学 
hematology http://en.wikipedia.org/Wwiki/Hematology 血液 学 
neurlogy http:/en.wikipedla.org/wlkVNeurology 神经 学 
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让 数据 分 析 工 


V 图 9 分 类 处 理 的 运行 步骤 


@@ 把 测试 数据 转换 成 顺序 文件 
(生成 Key 是 目录 、Value 是 单词 的 数组 


bin/mahout seqdirectory -i wiki -o wiki-seq 


CHAPTER ， : 
和 yO = 


bin/mahout seq2sparse -i wiki-seq -o wiki-vectors -lnorm -nv -wt tfidf 


@@ 分 开 用 于 学 习 的 数据 和 用 于 评价 的 数据 
(指定 randomSelectionPct 为 20% 来 分 割 测试 数据 


bin/mahout split -i wiki-vectors/tfidf-vectors --trainingOutput wiki-train-vectors --testOutput 


wiki-test-vectors --randomSelectionPct 20 --overwrite --sequenceFiles -xm sequential 


全 学 习 处 理 


bin/mahout trainnb -i wiki-train-vectors -el -o Wiki-model -1i labelindex -ow 


@ 评价 学 习 结 


bin/mahout testnb -i wiki-test-vectors -m wiki-model -1 labelindex -ow -o wiki-testing/ 


/home/mahout/mahout-distribution-0.7/wiki 下 。 

运行 图 9 的 命令 进行 分 类 处 理 。 图 9 命令 
4 运行 后 ， 会 显示 出 如 图 10 的 分 类 结果 。 在 这 
个 钙 不 里 ; 评价 大约 50%118 个 文件 。 下 
确 分 类 的 有 16 个 , 准确 率 非常 高 ,， 约 90%。 
两 个 医学 文件 被 错 分 到 了 数学 ,但 没有 医学 、 
数学 、 法 律 大 分 类 上 的 错误 。 

在 实际 开发 时 ， 要 解决 的 问题 会 
要 达到 这 样 的 准确 性 要 费 很 多 工夫 。 这 次 用 村 
素 贝 叶 斯 算法 对 Wikipedia 的 内 容 进 行 了 少许 分 
析 ， 请 大 家 一 定 用 别 的 算法 和 数据 试 试 ， 或 者 
在 Hadoop 上 试 试 ， 从 不 同 的 角度 学 习 Mahout。 


ul 
eT 
a 


这 一 章 我 们 动手 用 RR 进行 了 多 元 回归 分 析 ， 


多 
也 用 Mahout 人 处理 了 大 数据 。 大 家 应 该 对 数据 


分 析 软 件 的 操作 有 一 定 了 解 了 吧 。 请 大 家 以 这 
次 的 学 习 为 狠 机 ， 尝 试用 Excel、R 和 Mahout 
进行 各 种 各 样 的 数据 分 析 。 


V 图 10 分 类 结果 
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特辑 二 


大 数据 形势 下， 我 们 需要 从 企业 内 部 积 昔 


已 久 的 庞大 数据 中 , 抽取 出 对 经 营 有 益 的 信息 ， 
并 客观 地 分 析 这 些 信息 ， 做 出 必要 的 决策 。 因 
此 , 与 企业 的 效益 密切 相关 的 “数据 科学 专家 ” 
越 来 越 受 瞩目 。 

美国 《哈佛 商业 评论 》 甚至 预言 : “数据 
科学 专家 是 一 颗 巨 星 ， 是 21 世 纪 最 有 魅力 的 
职业 。 在 日 本 ， 只 有 部 分 企业 有 专门 的 数据 
科学 专家 ， 即 使 在 这 种 条 件 下 ， 为 什么 这 个 职 
业 还 是 备 受 关注 呢 ? 


上 由 用 户 数 量 和 使 用 时 间 趋 于 饱和 


数据 分 析 类 职业 受到 瞩目 的 理由 之 一 是 
“国内 市 场 已 经 饱和 ”。 日 本 的 人 口 约 为 1.2 亿 ， 
据 2011 年 统计 ， 网 民 的 人 口 比例 为 79%， 约 
9610 万 亿 。 

拥有 数 千 万 用 户 的 互联 网 服务 ， 其 可 以 预 
见 的 成 长 前 景 是 怎样 的 呢 ? 且 不 说 国内 人 口 能 


不 用 数学 公式 也 能 学 ? 


如 何 掌握 机 器 学 习 


学 习 数 据 分 析 ， 从 这 里 开始 


本 章 作 为 Cybozu ' Live 株 式 会 社员 工 的 作者 ， 将 通过 公司 内 部 学 习 ， 相 关 
学 习 书 籍 ， 进 一 步 介 绍 成 为 数据 科学 专家 的 预备 知识 及 学 习 方 法 。 


否 增长 ， 注 册 账 户 数 量 的 增长 也 会 趋 于 饱和 。 
为 了 打开 局 面 ， 企 业 需 要 向 国际 市 场 推进 ， 销 
售 战略 不 能 仅 限 于 日 本 市 场 ， 或 者 ， 实 施 一 些 
销售 策略 ， 使 用 户 使 用 多 个 账户 ， 以 促进 用 户 
数量 增长 。 比 如 ， 手 机 的 普及 率 超过 人 口 比 率 
的 100%, 一 个 人 同时 持 有 普通 手机 和 智能 手机 ， 
或 者 私 用 手机 和 公务 用 手机 ， 诸 如 此 类 。 同 样 
地 ， 电 子 邮箱 也 有 一 人 拥有 多 个 的 情况 ， 这 是 
很 普遍 的 现象 。 

以 前 的 游戏 机 ， 连 接 电视 机 后 才能 玩 游戏 ， 
所 以 只 有 在 家 时 才能 玩 。 但 是 ， 近 几 年 移动 终 
闪 上 的 社交 游戏 ,不论 在 家 中 、 上 班 上 学 途中 、 
在 学 校 、 在 公司 ， 只 要 是 休息 时 间 都 可 以 玩 。 
这 种 模式 扩大 了 游戏 时 间 及 地 点 ， 从 而 带动 用 
户 量 增加 ， 成 功 地 扩大 了 市 场 。 

但 是 最 近 ， 随 着 日 本 企业 向 国外 推进 ， 人 
们 也 逐渐 意识 到 一 个 事实 ， 那 就 是 世界 的 人 口 
总 数 (大 约 是 71 亿 ) 并 不 是 无 限 的 ， 每 个 人 能 
每 天 的 时 间 最 多 也 只 有 24 小 时 。 无 论 是 用 户 
数量 还 是 使 用 时 间 最 终 总 会 到 达 饱 和 状态 ， 为 
了 提高 企业 的 效益 ， 增 加 每 个 用 户 的 消费 就 成 
为 必须 要 考虑 的 策略 。 


GD Thomas H. Davenport and D. J. Patil“Data Scientist: The Sexiest Job of the 21st Century”, Havard Business Review, Oct., 2012. 
@O 出 自 总 务 省 “平成 23 年 通信 利用 动 癌 调查 ”http:/www.soumu.go.jp/johotsusintokei/statistics/statistics0S.html。 


sg 站 向 上 销售 


这 是 一 个 销售 战略 的 术语 。 这 种 营销 宋 略 
是 根据 客户 的 消费 喜好 ， 提 供 更 高 价值 的 产品 
或 服务 ， 刺 激 客 户 更 多 的 消费 ， 增 加 每 个 客户 
产生 的 效益 。 例 如 ， 一 名 客户 购买 电脑 时 ， 如 
末 能 促使 客户 购买 配备 了 最 新 类 特 尔 CPU 的 
电脑 ， 那 就 是 癌 上 销售 。 


so 交 又 销售 


这 也 是 一 个 销售 战略 的 术语 ， 目 的 是 劝 放 
已 有 的 客户 购 关 其 他 的 商品 ， 以 促使 单个 客户 
的 销售 额 增加 。 例 如 ， 在 快餐 店 里 ， 当 客户 操 
汉 保 时 ， 服 务 员 会 询问 是 不 是 也 来 份 慕 条， 这 
样 的 劝说 就 是 一 种 交叉 销售 。 还 有 ， 在 亚马逊 
网 上 购物 ， 当 客户 把 想 订购 的 商品 加 入 购物 车 
时 ， 页 面 上 就 会 出 现 “购买 此 商品 的 客户 还 订 
购 了 这 个 商品 ”的 推荐 。 这 些 都 是 典型 的 交叉 
销售 。 

为 了 显示 出 劝 诱 的 商品 ， 至 关 重 要 的 是 分 
析 过 去 的 销售 数据 ， 并 从 数据 中 发 现 密 切 相 关 
的 商品 之 间 的 搭配 。 

到 目前 为 止 ， 商 店 的 店员 采用 的 交叉 销售 
方式 ， 主 要 是 根据 各 种 商品 的 销售 情况 ， 和 插 直 
党 摆 放 商品 ， 以 此 提高 销售 御 。 但 是 ， 现 在 可 
以 利用 收银 机 的 记录 分 析 POS 数 据 ， 有 些 无 法 
依 年 店 员 的 经 验 和 百 党 发 现 的 数据 间 的 隐秘 天 
系 ， 就 可 以 被 发 现 了 。 束 像 很 有 名 的 那个 传说 ， 
根据 POS 数 据 的 分 析 “ 中 年 男性 购买 纸 尿 布 的 
同时 ， 买 后 普 啤 酒 的 可 能 性 很 高 ”。 

但 是 ,在 分 析 商 品 之 间 的 关联 性 时 ， 必 然 
就 需要 分 析 全 部 商品 排列 组 合 的 频率 。 如 果 有 
一 万 个 商品 ， 每 两 个 商品 排列 组 合 起 来 束 会 出 
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现 五 干 万 种 组 合 ， 如 霖 商品 增加 10 信 ， 那 么 


排列 组 合 就 会 增加 100 售 。 

数据 量 越 庞 大 ， 束 越 有 可 能 发 现 人 们 和 直觉 
所 忽视 的 意外 的 数据 间 的 关系 ， 但 是 ， 数 据 量 
的 规模 也 膨胀 到 普通 计算 方法 下 ， 一 台 计 算 机 
不 可 能 处 理 的 程度 。 为 了 能 够 在 有 限 的 时 间 内 
完成 计算 ， 必 须 采 用 Hadoop 或 Mahout 进 行 分 
布 式 处 理 ， 问 题 才能 得 到 解决 。 


KPI 指标 


在 销售 战略 中 有 一 个 评价 业绩 的 重要 指标 
吊 KPI(Key Performance Indicator， 关 键 绩效 
指标 )， 它 主要 取决 于 访问 次 数 、 有 效用 户 数 
以 及 ARPU( 参 加 者 每 人 每 月 销售 额 ) 等 ， 可 
以 定期 评价 是 否 达到 了 目标 数值 。 在 分 析 数 据 
时 ， 首 先 需要 判断 KPI 指标 是 否 达 成 。 

在 这 里 还 有 个 比 KPI 更 重要 的 概念 ， 即 
KGI(Key Goal Indicator)， 它 是 关键 目标 指标 ， 
重要 程度 位 于 KPI 之 上 ， 是 决定 最 终 目 标的 指 
标 。 为 了 达到 KGI 的 目标 ， 必 须 具 体 设 定 可 实 
现 的 各 阶段 的 中 间 目 标 KPI， 短 期 目标 KPI 达 
成 下 ， 夺 无 法 实现 长 期 稳定 的 效益 增长 ， 企 业 
的 经 营 也 仍然 是 不 健全 的 。 

对 于 数据 科学 专家 来 说 ， 需 要 牢记 KPI 之 
上 还 有 KGI， 以 此 积极 参与 企业 经 营 ， 这 一 点 
非常 重要 。 


学 习 数 据 分 析 的 


基础 : 统计 


如 末 上 司 突然 说 ,“ 从 明天 开始 你 去 负责 
数据 科学 专家 的 工作 ， 你 会 怎么 样 呢 ? 突然 
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视 数据 的 价值 


要 做 大 数据 分 析 恶 怕 难 度 很 高 ， 你 应 该 时 刻 准 
备 着 ,平常 就 养 成 认真 仔细 分 析 手 头 小 数据 的 
素养 。 

为 此 ， 最 低 限 度 的 必 备 知识 就 是 高 中 学 习 
过 的 概率 统计 。 由 于 入 学 年 限 不 同 ， 这 些 内 容 
的 叫 法 各 异 ， 数 学 II、 数 学 C、 数 学 B 等 说 法 
都 有 ， 有 的 人 学 得 很 深入 能 去 参加 数学 能 力 的 
“验收 考试 ”， 有 的 人 因为 其 不 属于 高 中 义务 教 
育 范 围 ， 就 没有 多 少 了 解 。 总 之 ,不 是 所 有 的 
人 都 具备 这 些 知 识 。 


。 胃 上 腊 没有 数学 公式 的 统计 学 习 书 


对 于 数学 公式 头痛 的 人 ， 我 给 你 们 首先 推 
穴 一 本 书 ,不 用 数学 公式 学 会 统计 的 基础 知识 。 


《通过 漫画 了 解 护士 的 统计 学 : 
SR 


SSSG 资料 》 


围 久 洛 志 

小 岛 隆 矢 ( 著 ) 
小 山 惠 子 (图 ) 
BeCom (制作 ) 
欧姆 社 出 版 元 一 委 D 见 方 办 与 赔 得 力 训 
2006 年 5 月 弗 表 资料 作成 下 区 < 
231 0 日 二 ( 含 税 ) zz 针 以 之 作 面 ， 
ISBN= 
978-4274066498 
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虽然 有 的 人 看 到 这 个 书 名 束 会 做 而 远 之 ， 
但 是 对 于 那些 尚未 了 解 “ 卡 方 检验 ”的 人 来 说 ， 
还 是 先 从 这 本 书 开 始 读 起 吧 。 

做 数据 分 析 之 前 ， 必 定 先 要 收集 数据 ， 该 
书 从 制定 调查 问卷 的 项 目 开 始 ， 仔 细 讲 解 整个 
过 程 ， 不 愧 为 一 本 好 书 。 详 细 讲 解 了 名 目 矿 度 
(男女 区 别 等 )、 顺 序 尺 度 (好 坏 等 )、 连 续 尺 度 
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(身高 、 体 重 等 ) 的 不 同 , 还 解说 了 统计 方法 
需要 注意 的 要 点 。 正 如 书 名 所 述 ， 它 是 面 同 护 
士 讲 解 统计 学 的 书 ， 所 以 没有 很 难 的 数学 公式 ， 
只 要 能 用 计算 天 进行 简单 的 加 减 乘除 和 平方 根 
运算 ， 束 不 难 理解 该 书 的 内 容 。 


号 数据 分 析 之 前 的 准备 


该 书 最 大 的 优点 是 ， 作 者 一 开始 就 仔细 讲 
解 了 学 据 分 析 之 前 的 准备 工作 。 


1. 问 题 是 什么 ? 想 要 做 什么 ? (抽出 评价 
项 目 ) 

2. 为 什么 这 样 做 才 好 ? (大 胆 质 疑 ) 

3. 怎样 才能 客观 地 证 明 ? (小 心 求证 ) 


这 些 都 是 分 析 大 数据 时 常用 的 思考 方法 。 

在 临床 上 出 现 了 一 个 领域 ， 就 是 积极 利用 
统计 学 的 方法 ， 通 过 分 析 过 去 的 临床 数据 ， 找 
出 最 适合 的 治疗 方法 。 该 书 的 主要 学 习 内 容 是 : 
无 俩 见 的 数据 收集 方法 ， 从 收集 数据 到 网 表 制 
作 ， 分 布 图 的 制作 法 ， 相 关 的 寻找 方法 以 及 检 
验 手法 。 

顺便 提 一 下 ， 责 丁 格 尔 就 是 一 位 用 实际 业 
绩 和 数据 证 明了 “为 降低 士兵 的 死亡 率 必 须 改 
善人 营房 卫生 环境 ”的 统计 和 学者， 她 制作 了 配 有 
多 幅 图 表 的 报告 书 ， 直 接 成 功 地 领导 了 医院 行 
政 改 革 。 


中 | 不 使 用 概率 的 统计 学 习 书 


帝 京 大 学 经 济 学 系 的 小 岛 宽 之 先生 写 的 这 
本 书 ， 不 用 概率 而 可 以 学 习 统 计 ， 是 一 本 罕见 
的 入 门 书 。 


小 岛 宽 之 ( 著 ) 
钻石 出 版 社 

2006 年 9 月 
1890 日 元 ( 含 税 ) 
A5 规格 

208 页 

ISBN = 
978-4-478-82009-4 
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统计 学 大 体 分 成 经 典 的 描述 统计 和 推断 统 
计 两 大 部 分 。 


@ 描述 统计 

掌握 总 体 的 特征 。 如 人 口 调查 ,土地 调查 ， 
国情 调查 。 

@ 推断 统计 

从 总 体 中 任意 抽取 样本 ， 分 析 抽 样 ， 然 后 
推测 出 全 体 的 情况 。 如 竞选 者 的 当选 概率 等 。 


推断 统计 是 现在 数据 分 析 使 用 的 基础 统计 
学 ， 是 由 概率 和 排列 组 合 结合 发 展 而 成 的 。 统 
计 是 “记述 过 去 发 生 的 事情 ”， 因 为 是 现实 存在 
的 所 以 容易 理解 。 概 率 是 “描述 即将 发 生 的 未 
来 的 事情 ?。 刚 开始 学 习 统计 学 时 ， 虽 然 不 容易 
理解 二 者 的 区 别 , 但 是 之 后 一 直 都 是 把 统计 和 
概率 作为 一 个 整体 来 学 习 的 。 

这 本 书 划时代 的 一 点 就 是 ， 尽 量 尝试 不 用 
概率 说 明 推 新 统计 。 像 概率 变量 PCX=xl)、 微 
积分 、 之 的 符号 都 没有 出 现 。 对 数学 没有 信心 
的 人 ， 可 以 用 此 书 复习 统计 学 。 
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如 何 掌握 机 器 学 习 


CHAPTER 


此 书 用 了 很 多 访 幅 说 明 标 准 差 ， 可 以 让 等 
习 者 更 好 地 体会 在 实际 中 如 何 应 用 统计 进行 数 
字 处 理 。 


统计 学 知识 还 应 用 于 金融 工程 领域 ， 学 习 
证 券 投资 的 组 合 构成 以 及 期 权 价格 时 ， 就 必须 
有 大 数 定律 与 中 心 极限 定律 的 概念 。 


@ 大 数 定律 

抽样 的 数量 充分 大 时 ， 抽 样 的 平均 值 就 可 
以 看 作 是 这 个 总 体 的 平均 值 。 

@ 中 心 极限 定理 

与 总 体 的 分 布 无 关 ， 抽 样 的 数量 足够 大 的 
话 ， 抽 样 的 平均 概率 分 布 就 可 以 作为 正 态 分 布 。 


想 要 严格 地 证 明 大 数 定律 与 中 心 极限 定理 ， 
那么 就 有 必要 学 习 讲 解 从 柯 尔 砚 哥 洛 夫 开 始 的 
近代 概率 论 的 教科 书 。 


和 从、 筷 《 概 率 论 初步 学 习 : 从 测度 到 概率 》 


佐藤 坦 ( 著 ) 


共立 出 版 社 全 5 下 人 
1994 年 2 月 测度 力 驴 确 率 八 


3360 日 元 ( 含 税 ) 
A5 规 格 ，216 页 
ISBN= 
978-4-320-01473-2 
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号 ，。 ”让 我 们 重新 审 
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该 书 是 面 问 上 共有 大 学 一 年 级 数学 水 平 ， 了 
解 黎 曼 积 分 和 勒 贝 格 积 分 的 学 习 者 。 虽 然 这 本 
书 开 始 的 7 页 ， 没 有 数学 基础 的 人 也 能 读 懂 ， 
但 是 之 后 的 内 容 ， 硅 没有 学 习 过 集合 论 基础 和 
实数 的 连续 性 就 很 难 懂 了 。 书 中 的 例子 讲解 ， 
可 以 让 读者 有 基本 理解 ， 但 是 对 于 而 望 更 深入 
理解 大 数 定律 和 中 心 极 限定 理 的 学 习 者 来 说 ， 
最 好 还 是 自己 动手 推算 一 下 。 

机 器 学 习 的 模型 是 以 正 态 分 布 为 假设 前 提 
讨论 数据 的 概率 分 布 的 ， 所 以 理解 中 心 极限 定 
理 是 必须 的 。 


垃圾 邮件 过 滤 就 是 贝 叶 斯 方法 的 一 个 使 用 
例子 。 通 过 学 习 过 去 观测 到 的 垃圾 邮件 的 词语 特 
征 制作 分 类 各 ， 再 利用 该 分 类 各 对 新 收 到 的 信件 
进行 概率 分 析 和 计算 推 上 新， 判断 是 否 是 垃圾 邮件 。 


喉 贝 叶 斯 定理 


大 约 250 年 前 ,一 位 业余 数学 家 ， 名 叫 托 
马 斯 : 贝 叶 斯 的 牧师 ,发 现 了 “ 贝 叶 斯 定理 ”。 


P(AlB).P(B) 


P( BIA )= pa) 


常量 : P(4)= 现象 4 发 生 的 概率 

先 验 概 率 : P(B)= 现象 4 发 生前 现象 8 的 
概率 分 布 

后 验 概率 : P(BI4)= 现象 4 发 生 后 现象 B 
的 概率 分 布 

似 然 函 数 : P(4IB)= 利用 观察 结果 合理 地 
推断 前 提 条 件 是 什么 

后 验 概率 是 指 以 观察 一 种 现象 为 动机 ， 高 


学 习 数 据 分 析 ， 从 这 里 开始 
一 Excel. R. Mahout . 大 数据 一 


yp eV) 


精度 修正 后 的 先 验 概率 。 

最 大 似 然 舍 计 就 是 选择 假设 最 大 化 似 然 毅 
数 的 推断 方法 ,但 贝 叶 斯 推断 是 选择 假设 最 大 
化 后 验 概率 的 推 师 方法 。 

如 果 想 掌握 具体 的 贝 叶 斯 推断 的 应 用 实例 ， 
那么 可 以 推荐 的 书 是 《 贝 叶 斯 预测 》。 书 中 基 
本 上 没有 什么 数学 公式 ， 很 容易 阅读 。 


<、 用 《 贝 叶 斯 预测 ， 关 于 提高 准确 率 的 
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作为 具体 的 贝 叶 斯 推断 的 应 用 例子 ， 书 中 
介绍 了 用 户 在 移动 电话 服务 公司 之 间 的 变更 原 
因 分 析 、 犯 罪 调查 、 沉 高 搜 索 等。 

书 中 还 介绍 了 语 首 识别 所 用 的 隐 马 尔 科 夫 
模型 ， 以 及 利用 朴 系 贝 叶 斯 来 预测 未 来 的 销售 
战略 。 


号 芝 模式 识别 与 机 器 学 习 


\ 


笔者 所 属 的 Cybozu Live 株 式 会 社 ， 把 掌 
握 处 理 自然 语言 所 必需 的 机 需 学 习 基 础 知识 作 
为 目标 ， 从 2011 年 起 ,公司 内 部 中 谷 秀 洋 先 
生 组 织 了 学 习 会 , 会 上 大 家 轮流 阅读 的 教材 ， 


就 是 Bishop 先生 编写 的 《模式 识别 与 机 带 学 习 》 
Ex 

当时 ， 员 工 们 还 不 习惯 机 器 学 习 的 思维 ， 
读 这 本 教材 确实 很 费 神 , 但 是 光 成 滋生 先生 
撰写 的 相关 算法 解说 ,经 暗黑 通信 团 出 版 社 
装订 成 《学 习 模式 识别 与 机 需 学 习 》 就 成 了 
这 本 教材 的 姊妹 书 。 

此 书 初次 出 版 后 ， 立 刻 在 一 些 领域 成 为 了 
话题 。 在 淳 久 堂 书 店 池袋 本 店 每 周 销售 排名 中 
位 于 “ 易 读 代码 ”类 第 一 ， 同 一 家 书店 的 2012 


年 的 计算 机 书籍 销售 排行 榜 名 列 第 三 位 。 


光 成 滋生 ( 著 ) 。 
暗黑 通信 团 出 版 社 3 Learning 6 en eco nc Machine Learnip 
2012 年 7 月 
1050 日 元 ( 含 税 ) 
B5 规格 , 99 页 
ISBN = 
978-4873101668 目 


这 本 书 的 畅销 ， 也 说 明 大 家 都 在 用 心 学 习 
机 带 学 习 ， 而 且 还 能 让 初学 者 感受 到 ， 还 有 和 
目 己 一 样 的 大 量 志同道合 的 同志 。 

原 书 的 基本 知识 是 从 第 2 草 到 第 $ 草 ， 后 
一 半 的 难关 在 第 9 半 和 第 10 半 。 有 关 第 11 革 
的 物理 学 和 抽样 法 ， 还 会 有 新 书 出 版 。 

为 了 学 习 机 融 学 习 的 理论 ， 有 必要 匈 复 习 
一 下 大 学 数学 的 微 积分 和 线性 代数 ， 推 荐 工程 
师 们 一 边 回 忆 积 分 的 函数 变换 和 行列 式 的 各 种 
操作 ， 一 边 学 习 机 带 学 习 。 


不 用 数学 公式 也 能 学 ? 


如 何 掌握 机 器 学 习 


在 实际 数据 分 析 时 ， 因 为 访问 记录 中 的 查 
找 关 键 字 可 能 是 日 语 或 英语 ， 所 以 需要 分 析 用 
自然 语言 写 的 数据 。 这 时 候 ， 学 习 基 本 的 自然 
语言 处 理 就 变 得 很 重要 。 这 里 推荐 东北 大 学 的 
乾 :办 崎 研究 室 公 开 的 《语言 处 理 100 问 题 集 户 


《语言 处 理 100 问题 集 


一 东北 大 学 乾 * 冈 崎 研究 室 》 
http: tinyurl.com/gengosyori100 


第 一 系列 : 文本 数据 的 处 理 基础 

第 二 系列 : 正则 表达 式 ， 日 语 的 处 理 

第 三 条 列 是 分 到 司 了 于 标 ) 只 化 ( 闫 9 

第 四 系列 : (前 半 部 ) 查 字典 

第 四 系列 : ( 后 半 部 ) 自然 语言 模型 

第 五 系列 词汇 解析 /描画 图 形 

第 六 系列 :段落 解析 /类 

第 七 系列 词汇 类 似 度 / 聚 类 分 析 

第 八 系列 ， 机 器 学 习 / 分 类 器 

第 九 系列 ， 数据库 

第 十 系列 .结构 化 数据 ( XML ) 的 处 理 / 以 CG| 为 摹 本 的 
演示 系统 


书 中 从 基本 课题 人手， 如 在 类 UNIX 系 统 
上 从 标准 输入 读 取 到 tab 分 割 数据 形式 的 文本 
文件 处 理 ， 同 时 还 涉及 Twitter 数据 分 析 等 实 
际 的 编程 题目 ， 读 者 可 以 循序 渐进 地 学 习 自 然 
语言 的 处 理 技术 。 

在 语言 处 理 的 最 前 沿 ， 也 应 用 了 统计 的 机 
需 学 习 技术 。 更 进一步 的 学 习 教 材 ， 推 荐 高 村 
大 也 撰写 的 《为 了 语言 处 理 的 机 可 学 习 入 门 》， 
此 书 为 触及 学 习 关键 的 优良 教材 。 


本 章 介 绍 的 关于 学 习 机 第 学 习 、 数 据 分 析 的 


技术 和 理论 的 教材 ， 都 已 经 介绍 完毕 。 那 么 什么 
时 候 开始 学 习 机 器 学 习 呢 ? 现在 就 开始 吧 | 


2 
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让 我 们 重新 审 
til) 


机 器 学 习 的 三; 


身 过 日 益 兴 盛 的 


粗略 地 讲 ， 机 带 学 习 是 数据 分 析 技 术 的 一 


个 流派 , 但 其 实 它 起 源 于 人 工 智 能 的 一 个 分 文 ， 
至 今 已 经 有 50 年 的 历史 。 它 曾经 以 各 种 各 样 
的 形式 为 大 家 所 利用 。 最 近 , 随 着 大 数据 的 兴起 ， 
对 机 楷 学 习 的 注目 达到 了 前 所 未 有 的 高 度 ( 笔 
者 很 吃惊 地 从 电视 上 看 到 了 机 器 学 习 的 相关 词 
语 )。 现 在 ， 很 多 企业 认为 数据 分 析 技 术 是 基 
础 竞争 力 ， 因 此 对 其 格外 重视 。 

在 我 们 身边 ， 发 挥 机 器 学 习 预 测 功能 巨大 
作用 的 实例 ， 就 是 购物 网 站 的 推荐 购物 功能 。 
该 功能 被 认为 是 机 融 学 习 的 主要 应 用 领域 ,， 美 
国 一 家 网 上 录像 出 租 公司 Nettix， 儿 年 前 曾经 
投入 100 万 美元 奖金 举办 苋 赛 征集 最 优 算法 。 

推荐 技术 ， 即 通过 分 析 消 费 者 的 购物 习惯 
与 个 人 信息 等 ， 预 测 其 消费 倾向 并 提示 给 该 消 
费 者 。 随 痢 数 据 量 的 增加 ， 针 对 每 一 位 消费 者 
的 具体 情况 进行 分 析 ， 可 以 提供 更 加 细致 的 推 
存 信息 。 

除 网 上 购物 以 外 ， 利 用 社交 媒体 Twitter 
或 Facebook 的 朋友 想必 不 少 ， 期 间 常 见 的 提 
示 信 息 “ 这 位 是 不 是 你 的 朋友 ”就 是 利用 推荐 
技术 实现 的 。 推 荐 技术 根据 社会 学 的 观点 “ 朋 
友 的 朋友 还 是 朋友 ”， 提 供 有 可 能 成 为 新 朋友 
的 推荐 信息 。 

平时 大 家 在 网 上 浏览 时 ， 


经 常 看 到 的 网 络 


学 习 数 据 分 析 ， 从 这 里 开始 


一 Excel.R. Mahout : 大 数据 一 


乏 应 用 及 未 来 


文 / 鹿 岛 久 网 ”东京 大 学 译 / 雷 军 | 


广告 也 是 机 带 学 习 的 应 用 。 如 何 从 众多 的 广告 
中 挑选 最 有 可 能 吸引 购买 的 广告 提示 给 浏览 
就 是 利用 机 副 学 习 来 预测 的 。 

网 络 广告 往往 局 限于 登载 篇 幅 大 小 以 及 能 
显示 的 次 数 , 为 了 研究 如 何 达到 最 大 广告 效 末 ， 
需要 收集 浏览 者 浏览 倾 癌 的 信息 ， 同 时 ， 根 据 
该 信息 选择 最 适合 的 广告 资源 。 这 种 技术 被 称 
作 是 强盗 预测 技术 (Bandit)， 也 是 一 种 机 器 学 
习 的 扩 术 。 强 盗 预测 技术 有 着 比较 长 的 研究 历 
史 ， 是 代 督 A/B 测 试 ， 作 为 网 络 最 优化 的 强 有 
力 方 法 ， 习 | 起 了) 这 的 注目 。 


机 器 学 习 在 异常 


We 
生生 < 


lS 检测 中 的 应 用 


发 现 式 机 带 学 习 ， 在 工业 中 一 个 非常 重要 
的 应 用 就 是 异 间 检测 。 “ 异 笛 ”就 是 类 似 于 信 
县 系统 中 ， 计 算 机 病毒 的 感染 或 者 侵入 、 盗 用 
信用 卡 、 生 产 线 或 者 机 各 设备 的 故障 等 问题 。 
虽然 发 生 频率 不 是 很 品 ， 但 是 一 旦 发 生 就 会 造 
成 服务 停止 之 类 的 重大 损失 ， 所 以 在 异常 发 生 
之 前 或 早期 阶段 就 检测 到 至 关 重 要 。 

目前 为 止 ， 重 大 事故 发 生 较 少 ， 所 以 根据 过 
去 的 数据 进行 预测 也 是 很 困难 的 。 相 反 ， 有 既然 很 
难 定义 异常 ,那么 考虑 一 下 它 的 反面 “正常 ”是 
什么 。 系 统 正 第 运转 时 ， 产 生 的 数据 是 有 代表 意 
义 的 ,那么 擎 握 正 常数 据 的 特征 ， 利 用 监视 系统 ， 
一 旦 发 现 效 据 脱 离 了 正 篆 的 状态 ， 就 发 出 警告 。 


这 样 一 来 ,无须 知道 出 现 的 是 什么 异常 ， 
只 要 有 可 能 是 异 稼 的 时 候 ， 立 即 提示 和 警告， 系 


统管 理 员 就 可 以 继续 进行 调查 。 


富有 计算 机 能 超过 人 类 吗 ? 


AN 


当今 ， 数 据 分 析 技 术 在 各 个 行业 迅速 普及 
和 推广 ， 并 取得 了 一 定 成 绩 。 换 句 话 说 ， 机 可 
的 智慧 正在 威胁 着 人 类 的 智慧 。 最 近 的 一 件 事 
情 ， 想 必 大 家 还 记忆 犹 新 ， 美 国 IBM 的 人 工 智 
能 系统 “Watson Computer” 十 分 出 色 地 战胜 了 
国际 象棋 世界 冠军 。Watson 以 自然 语言 处 理 技 
术 和 语音 识别 技术 为 基础 ， 配 有 庞大 的 知识 储 
备 ， 加 之 用 机 器 学 习 技 术 开 发 的 核心 技术 ,使 
其 具有 应 对 未 知 状况 的 能 力 。 科 学 家 们 正 计 划 
把 这 样 的 系统 应 用 于 医疗 和 金融 领域 。 

这 样 一 来 ， 本 来 只 有 人 类 才能 处 理 的 智力 
性 工作 ， 电 不 是 也 会 被 具有 强大 大 数据 处 理 能 
力 的 机 器 所 取代 了 吗 ? 有 些 人 可 能 会 对 此 感到 
不 安 (同样 的 担忧 , 在 工业 革命 时 期 也 曾 出 现 )。 
其 实 ， 这 种 说 法 对 错 参 半 。 正 如 上 述 的 实例 ， 
与 人 工 智能 技术 的 研究 范畴 相 比较 ， 大 数据 分 
析 技 术 的 世界 既是 开放 和 复杂 的 ， 又 是 相当 封 
闭 的 。 那 些 含有 模糊 价值 和 目的 、 必 须 超越 普 
通 思维 的 创造 性 的 任务 ， 还 是 只 有 人 类 才能 胜 
任 的 。 


Ee 
机 器 学 习 的 广泛 应 用 及 未 来 
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几 年 前 举办 的 日 由 式 国际 象棋 比赛 (人 和 
计算 机 可 以 任意 自由 组 合成 团队 参加 比赛 )， 


据说 夺冠 的 团队 是 象棋 业余 爱好 者 和 电脑 组 成 
的 混合 团队 。 这 件 事 情 提示 了 了 人们, 今后 的 趋 
势 将 是 机 各 和 人 类 的 共同 合作 。 也 就 是 说 ,不 
是 机 硕 和 人 关中 的 荣 一 方 ， 而 是 人 类 和 机 种 互 
相 弥 补 和 才能 发 挥 出 最 佳 的 表现 力 。 

实际 上 ， 这 正 是 近年 来 计算 机 科学 界 引 人 注 
目的 领域 一 一 人 计算 (human computation)。 对 媒 
体 的 理解 或 搜索 等 ,虽然 可 以 实现 部 分 程度 的 机 
械 性 操作 ， 但 其 中 很 难 实现 部 分 还 是 必须 依 徘 人 
来 解决 的 。 这 部 分 实际 上 就 是 在 计算 机 系统 里 采 
用 了 人 类 明确 的 指令 ,来 实现 单 罪 机 右 不 能 完成 
的 功能 而 已 。 为 了 实现 实时 性 ， 全 世界 的 人 利用 
网 上 众 包 等 形式 可 以 实时 访问 这 些 资源 。 

回 到 数据 分 析 的 话题 上 ,实际 上 ， 数 据 分 
析 是 机 可 学 习 中 目 动 分 析 的 一 部 分 而 已 。 例 如 理 
解 业 务 、 设 定 识 题 、 数 据 的 收集 和 整理 、 结 果 的 
解释 等 ， 数 据 分 析 的 很 多 部 分 ， 都 是 劳动 密集 
型 的 专门 性 处 理工 作 ， 那么 ， 就 像 人 计算 一 样 ， 
人 类 与 机 各 相互 取长补短 才能 创造 出 更 高 的 价 
值 。 难 道 这 不 正 是 未 来 的 数据 分 析 方 式 吗 ? 
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Machine Learning 
in Action 


图 灵 访 谈 Peter Harrington : | 
! 如 何 成 为 一 位 数据 科学 家  ， 


作者 : Peter Harrington 
译 者 : 李 锐 李鹏 等 


[ 美 ] Peter Harrington 奢 
李 锐 李鹏 典 亚 东 王 退 


人 书号 ; 978-7-115-31795-7 
i 定价 : 69.00 元 /39.99 元 
2 开本 : 16 
AR 页 数 ，332 


@ 使 用 Python 前述 机 器 学 习 概 念 
@ 介绍 并 实现 机 器 学 习 的 主流 算法 
@ 面向 日 常任 务 的 高 效 实战 内 容 


作者 : Garry Turkington 
译 者 : 张 治 起 


kslelele]e 书号 ，978-7-115-34133-4 
基 础 教 程 定价 : 65.00 元 /39.99 元 
开本 : 16 


页 数 : 324 


本 书 揭 开 了 Hadoop 的 神秘 面纱 ， 它 着 重 讲解 了 如 何 应 
用 Hadoop 和 相关 技术 搭建 工作 系统 并 完成 任务 。 在 读者 明 
白 这 些 内 容 之 后 ， 又 介绍 了 如 何 使 用 云 服 务 完成 相同 任务 。 
本 书 从 Hadoop 的 基本 概念 和 初始 设置 入 手 ， 讲 述 了 如 何 开 
发 Hadoop 程序 ， 如 何在 数据 规模 增长 的 时 候 维 持 系 统 运 
行 ， 本 书 涵盖 了 有 效 使 用 Hadoop 处 理 实际 问题 所 需 用 到 的 
全 部 知识 。 


TURING 图 灵 原创 


重新 设计 互联 网 


OpenF ov 


作者 : 徐 立 冰 

书号 ，978-7-115-31150-4 
定价 : 59.00 元 

开本 : 16 

页 数 : 312 


原创 经 典 


通过 阅读 本 书 ， 读 者 将 清楚 地 了 解 到 如 何在 云 计算 与 大 


数据 时 代 构 建安 全 、 可 靠 、 高 速 与 灵活 的 网 络 。 本 书 主要 内 
容 包 括 : 云 计算 对 基础 架构 的 驱动 、 云 计算 网 络 的 组 成 、 如 
何 构 建安 全 可 靠 灵 活 的 网 络 通道 、 虚 拟 化 数据 中 心 的 扩张 、 
外 部 和 内 部 网 络 的 实现 、 大 数据 网 络 设计 要 点 ， 以 及 厂商 解 
决 方案 等 。 
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本 书 旨 在 教会 你 如 何以 MapReduce 方式 编写 程 
序 。 书 中 内 容 由 浅 入 深 ， 以 几 个 简单 的 例子 开始 ， 继 而 转 
向 Hadoop 在 较为 复杂 的 数据 分 析 中 的 应 用 。 其 中 包含 
MapReduce 编程 中 的 最 佳 实践 及 设计 模式 ， 还 介绍 了 
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本 书 是 日 本 畅销 的 大 数据 商业 应 用 指南 。 书 中 结合 野村 
综合 研究 独家 氢 露 的 调查 数据 ， 网 罗 了 美国 、 日 本 标杆 企业 
与 政府 的 应 用 案例 ， 总 结 了 大 数据 的 商业 模式 ， 以 及 在 大 数 
据 应 用 中 需要 注意 的 隐私 问题 ， 并 丈 如 何 为 大 数据 时 代 做 好 
准备 展开 了 深入 的 探讨 ， 提 出 了 诸多 有 益 的 建议 。 

本 书 适 合 商业 人 士 以 及 与 大 数据 相关 的 |T 从 业者 阅读 。 


GPS an 县 人 1 


] | We 1 
CX00 8 
fg NN 
A Lu 
LU 
\\ / 
、 50gd” 
A | 站 
MOE 100 ue ee 10 一 
vw 浇 \ | 2 < 会 ss 
有 有 反 和 £ bs 
MEG 巷 否 拥有 日 己 的 评价 标准 ?: 能 否 发 现 系统 性 能 瓶颈 ? 


基准 测试 应 用 技术 


购买 了 新 怨 肢 务 器 ， 投 入 使 用 后 发 现 性 能 并 不 理想 的 情况 时 而 有 之 吧 ? 参考 产品 手 
。 、 训 的 机 器 性 能 选择 想 要 购买 的 机 器 时 ， 首 先 就 要 进 人 
二 ”我 们 以 日 常 使 用 睛 PC 为 例 ， 通 过 了 解 硬件 体系 结构 来 对 性 能 瓶颈 及 其 厦 于 进 行 控 
en 并 通过 对 各 种 基准 测试 方法 
的 尝 习 ， 营 握 硬 件 评价 的 技巧 ， 最 后 总 结 出 一 套 通用 的 评价 标准 。 
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第 一 部 分 主要 讲解 PC 基准 测试 的 必要 性 与 方法 。 现 今 ， 多 数 基准 测试 的 操作 都 非常 简单 ， 点 击 一 


下 即 可 进行 一 系列 的 数据 人 处理， 最 后 得 到 结果 。 然 而 ， 如 果 能 


深入 地 理解 其 中 的 含义 ， 就 可 以 判 


断 测试 结果 是 否 符合 要 求 ， 从 而 更 加 有 效 地 应 用 这 些 数据 。 


基准 测试 的 必要 性 


有 读者 可 能 对 “基准 测试 ”这 个 词 蛙 有 年 
闻 。 基 准 测试 主要 是 对 计算 机 的 处 理 速度 进行 
测试 ， 即 让 测试 程序 在 计算 机 上 运行 ， 擎 握 其 
运行 速度 和 其 他 性 能 指标 。 

之 前 你 可 能 听 说 过 某 某 超级 计算 机 跻 屿 
世界 50 强 等 。 就 超级 计算 机 而 言 ， 基 准 测试 
程序 LINPAK ”测试 的 速度 是 决定 世界 排名 的 
标准 。 

基准 测试 不 仅 可 用 于 Intel 系 列 人 硬件 ， 也 适 
用 于 整 台 计算 机 。 测 试 结果 出 来 后 ， 就 可 得 到 
此 种 计算 机 相对 于 通用 基准 值 的 高 低 状况 。 

有 些 人 认为 ,为 了 进军 超级 计算 机 500 强 
而 进行 基准 测试 是 可 以 理解 的 , 但 一 般 的 团体 、 
企业 则 没有 必要 进行 基准 测试 。 这 种 说 法 过 
于 片面 ， 因 为 实际 上 基准 测试 有 利于 业务 处 
理 速度 的 提升 和 成 本 的 降低 。 本 文 的 宗旨 正 
是 通过 基准 测试 将 有 限 的 资源 得 到 最 大 程度 
的 应 用 。 


-一 


GD http://ja.wikipedia.org/wiki/LINPACK 或 者 http://top500.org/ 


project/linpack/ 


沙 Twitter @YuusaEndo 译 / 叶 东 


应 在 什么 时 候 进 行 基准 
测试 ? 


如 末 只 看 基准 测试 的 结果 没有 任何 意义 ， 
只 有 将 它 与 通用 的 基准 值 进 行 比 较 才 能 看 出 
永 优 讨 劣 。 一 般 有 以 下 几 种 情况 会 用 到 基准 
测试 。 


本 
。 周边 的 计算 机 作 比 较 


如 图 1 所 示 ，PC 便 件 的 升级 与 软件 的 复杂 
程度 互相 影响 。 即 使 现在 感觉 跑 得 很 快 的 机 顺 ， 
儿 年 后 伴随 软件 的 更 新 ， 也 会 变 得 愈 发 迟缓 。 
这 时 可 以 通过 基准 测试 来 量化 指标 ， 确 定 是 继 
续 使 用 还 是 更 新 换代 。 

简 而 言 之 , 就 是 用 基准 测试 将 快 与 慢 的 感 


Y 图 1 将 革 台 计算 机 的 性 能 与 周边 的 计算 机 做 比较 


自己 的 PC 到 底 有 多 快 ? 


本 


SCORE SCORE SEGORE SCORE 
4700 3200 2400 6800 
有 


二 


澳 量 化 。 感 觉 机 各 慢 了 就 害 要 更 换 ， 这样 太 
过 主观 。 如 采 能 够 用 数据 来 说 话 ， 就 更 加 具 
有 说 服 力 。 


A 情况 2: 通过 基准 测试 来 提高 计算 机 
ei 性 能 ， 进 而 确保 运行 的 稳定 性 和 速度 
基准 测试 的 另 一 个 目的 是 找到 机 器 的 瓶颈 ， 
权衡 性 能 与 成 本 ， 对 其 进行 改善 。 

例如 ， 服 务 器 需要 承受 激增 的 交易 服务 。 
工作 站 需要 减少 模拟 计算 所 花费 时 间 。 而 这 些 
都 很 难 使 用 业务 软件 进行 测试 与 评估 ， 因 为 环 
境 的 配置 与 类 似 情况 的 再 现 是 非常 困难 的 。 因 
此 ， 使 用 通用 测试 程序 进行 测试 与 评估 变 得 非 
常 有 意义 。 


理解 基准 测试 结果 所 需 


要 的 预备 知识 


一 般 来 讲 ， 基 准 测试 程序 都 是 利用 多 个 明 


数 进行 组 合 运算 ， 最终 得 到 一 个 综合 的 结 
要 想 更 好 地 把 握 绪 采 ， 需 要 详细 了 解 从 开始 到 
最 终 得 出 结果 的 过 程 。 下 面 ， 先 讲 讲 PC 大致 
的 数据 处 理 流程 。 


4 传输 速度 的 确认 


Intel 的 Core i 系列 各 种 总 线 的 传输 速度 如 
图 2 所 示 。 各 接口 的 传输 速度 是 根据 Intel 资料 
取得 的 ， 而 实际 接线 情况 应 该 更 多 ， 可 以 更 加 
高 效 传递 数据 ， 例 如 存储 需 交 义 存 取 。 应 该 理 
解 ， 这 一 结果 与 实际 系统 内 数据 的 传输 速度 还 
是 存在 一 定 差异 。 

依靠 CPU 缓存 中 的 命令 ， 数 据 通过 IO 管 
理 蕊 片 传送 到 硬盘 等 存储 装置 上 上。 硬盘 上 的 数 
据 根 据 命 令 被 送 往 CPU， 作 为 图 像 处 理 的 结 
被 输出 。 这 一 系列 的 处 理 经 过 了 各 种 各 样 速率 
不 同 的 总 线 。 男 外 ， 各 种 装置 自身 读 与 写 的 速 
率 也 不 同 ， 进 而 影响 整体 处 理 速 度 。 

所 以 , PC 性 能 是 的 下 面 几 点 相互 作用 的 结 


V 图 2 计算 机 的 结构 图 与 传输 速率 指标 (以 Intel H57 Express 必 片 为 例 ) 
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。 CPU 处 理 能 力 的 高 低 

。 各 种 总 线 传输 速率 的 高 低 

各 种 外 设 装 置 的 处 理 速 度 ( 存 储 装 置 的 
读 写 操作 等 ) 


这 些 只 是 数据 处 理 的 基本 流程 。 还 存在 其 
他 影响 机 带 性 能 的 重要 因素 ， 例 如 数据 的 大 小 、 
处 理 命令 优先 级 ， 以 及 各 种 外 设 装置 的 使 用 频 
度 等 。 


4 处理 变 慢 的 原因 是 什么 ? 


处 理 大 于 CPU 内 部 缓存 的 数据 时 , 需要 使 
用 存储 器 完成 。 存 储 器 容量 虽然 比 内 部 缓存 大 ， 
但 是 传输 速率 与 存 取 速率 要 劣 于 内 部 缓存 。 如 
果 遇 到 存储 器 也 不 能 容纳 的 数据 ， 溢 出 部 分 就 
需要 用 人 硬盘 的 虚拟 存储 区 域 来 完成 。 这 样 ， 低 
速 外 设 的 读 写 处 理 就 造成 性 能 的 降低 。 虚 拟 存 
储 区 域 如 果 使 用 的 是 外 接 式 硬 盘 的 话 ， 因 为 外 
接 式 硬盘 需 一 般 通 过 USB 方 式 读 与 写 ， 因 而 
性 能 会 进一步 降低 。 上 述 内 容 是 以 使 用 虚拟 存 
储 区 域 为 前 提 而 言 的 。 

计算 机 性 能 的 高 低 与 使 用 方法 和 组 成 结构 
息息相关 ， 所 以 以 实际 应 用 的 负荷 状态 对 机 器 
各 种 指标 进行 基准 测试 是 非常 重要 的 。 如 果 已 
知 某 项 性 能 需要 改善 ， 就 等 于 确立 了 目标 。 举 
一 个 流体 分 析 的 例子 : 程序 从 一 个 状态 计算 完 
成 后 ， 对 于 状态 的 变化 还 需要 进行 再 计算 。 类 
似 这 样 的 反复 处 理 是 必要 的 (图 3)。 在 这 种 情 
况 下 进行 基准 测试 ， 可 能 由 于 硬盘 处 理 速度 过 
组 而 造成 了 系统 瓶颈 。 作 为 解决 方案 ， 可 将 便 
盘 组 建 为 阵列 模式 以 提升 读 写 速度 。 


基准 测试 的 分 类 与 注意 


事项 


基准 测试 所 使 用 的 程序 有 许多 种 ， 本 文 着 
重 介 绍 以 下 三 种 。 


@ 综合 型 基准 测试 

对 于 由 CPU、 存 储 器 、 显 卡 等 组 成 PC 的 
所 有 组 件 进 行 整体 基准 测试 。 

@ 结构 型 基准 测试 

针对 存储 器 、 显 卡 等 个 别 组 件 进行 基准 测试 。 

@ 特定 目的 型 基准 测试 

在 与 实际 应 用 相 接近 的 条 件 下 进行 基准 测试 。 


我 们 应 根据 测试 对 象 和 测试 目的 ， 来 选择 


V 图 3 反复 计算 示意 图 


SEY CPU 


HDD 
虚拟 内 存 


相应 的 基准 测试 程序 。 例 如 , DirectX、OpenGL 
等 显卡 评价 程序 ， 主 要 用 于 对 游戏 、CAD 等 
环境 的 测试 ， 而 对 于 一 般 服 务 需 则 是 不 需要 的 。 
应 用 于 事务 处 理 的 MS Office 环 境 , 对 于 浮 点 
小 数 演算 方面 的 测试 是 不 必要 的 。 

男 外 ,还 需要 注意 的 是 ， 有 些 基 准 测 试 
程序 未 对 应 64 位 机 种 ， 或 者 未 对 应 多 核 CPU， 
使 用 前 应 该 仔细 阅读 相关 资料 。 


尝试 一 下 基准 测试 


下 面 我 们 来 介绍 各 种 基准 测试 工具 以 及 使 
用 方法 (大 部 分 都 是 基于 Windows 版 软件 )。 
4 综合 型 基准 测试 
® PCMark7 


PCMark 7( 图 4) 由 Futuremark 公司 开发 ， 


有 图 4 ” PCMark 视频 测试 中 的 截屏 


ARE 


[i 


基准 测试 的 基础 [PC 篇 ] 


为 PC 版 应 用 程序 。 可 以 完成 综合 型 基准 测试 。 
现在 有 3 个 版 本 ,最 基础 版 本 是 Basic Edition, 
为 非 商用 免费 ; 能 够 支持 更 加 复杂 测试 的 版 
本 是 Advanced Edition; 更 高 级 的 就 是 可 以 执 
行 命令 行程 序 的 Professional Edition( 图 5),。 使 
用 了 Basic Edition 可 用 于 测试 Video playback and 
transcoding、 Web Browsing、DirectX 9、System 
Storage 等 各 项 指标 以 及 综合 指标 。Advanced 
Edition 除 了 基本 测试 项 目 之 处 ， 还 具备 Common 
usage performance 分 类 测试 功能 , Computation 和 
System storage 可 以 取得 PC 各 组 件 的 基准 测试 结 
采 ， 并且 按照 用 途 进 行 测试 ( 表 1 和 图 6)。 


4 如 何 分 析 测 试 结 


使 用 PCMark 进 行 基准 测试 的 结果 可 与 网 站 
上 公布 的 其 他 系统 的 测试 结果 做 比较 。PCMark 
软件 的 view Result on PCMark.com 按 键 可 以 用 来 
显示 自身 测试 结果 。 如 果 需 要 与 其 他 系统 作 比 较 ， 
选择 网 页 的 Results 指定 对 象 就 可 以 直观 对 比 。 
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基准 测试 应 用 技术 


图 7 是 一 个 做 对 比 的 例子 ,在 CPU 性 能 基本 相 
同 的 情况 下 ， 总 体 性 能 不 分 上 下 ， 但 是 能 够 看 


出 作者 这 合 机 融 的 显卡 性 能 不 是 太 高 。 


与 不 同 种 CPU (Intel Core i7) 的 最 高 性 能 结 


果 相 比 , 显卡 (DirectX 9) 性 能 差距 是 9 倍 ，web 


browsing 的 性 能 差距 是 20 倍 , 遭 到 不 小 的 打击 。 


有 图 5 BasicEdition 只 用 于 测试 PCMark Score( 上 )、Advanced Edition 


的 详细 显示 结果 (下 ) 


,= PCMark 7 Advanced Edition v1.4. 


PCMARKT7 


ADVANCED EDITION 


Benchmark 


| Overall performance Workloads 


VI PCMark suite V Video playback and transcoding 


口 Lightweight suite V Image manipulation 

ww Web browsing and decrypting 

w Graphics - DirectX 9 

V System storage - Windows Defender 


[Common usage performance 


DD) Productivity suite Vv System storage - importing pictures 
[Entertainment suite V System storage - gaming 


[Creativity suite 
| | Hardware component performance 
[ Computation suite 
[) System storage suite 
] Secondary storage suite 


C:¥ 


EE) PCMark 7 Basic Edition v1.4.0 


PCMARK7 


BASIC EDITION 


Benchmark 


Workloads 


v Video playback and transcoding 


v Image manipulation 


w Web browsing and decrypting 


Vv Graphics - DirectX 9 


V System storage - Windows Defender 
V System storage - importing pictures 


Show al | 


Run benchmark 


Run benchmark 


Run benchmark 


Run benchmark 


Upgrade to PCMark 7 Advanced Edition today. 


Unlock all common usage and hardware 
component benchmark suites 


三 Complete analysis with more than 20 
individual workloads 


@ Run storage tests on secondary and 
external drives 


a Unlimited results storage on 
PCMark.com 


@ Offline result management 


Uparadc Now 


表 1 PCMark7 的 基准 测试 项 目 ( 评 价 项 目 以 分 组 形式 构成 ) 


PCMark suite 
Productivity suite 


Entertainment test 


数值 运算 、 存 储 装置 、 
Text Editing, Web Browsing and decrypting, System storage 等 办 公 处 理 类 功能 测试 


显示 等 综合 测试 


然而 ， 如 果 没 有 使 用 DirectX 玩 游戏 ， 也 没有 感 
党 网 速 过 慢 的 话 ， 也 就 没有 什么 大 不 了 的 了 。 


4 ”结构 型 基准 测试 


结构 型 基准 测试 的 产品 基本 都 是 与 显卡 相 


关联 的 。 代 表 性 的 显卡 基 
准 测 试 工具 有 OpenGL 和 
DirectX。 OpenGL 是 开源 的 
多 平台 型 显卡 库 ， 主 要 用 于 
CAD、CG 等 方面 的 测试 。 
DirectX 原 本 是 用 于 Microsoft 
Windows 游 戏 软 件 的 开发 ， 
最 近 也 能 用 于 CAD 等 方面 
的 测试 。 


4 OpenGL 基 准 测试 工具 介绍 


MAXON 的 CNEBENCH 
(图 9) 是 OpenGL 针 对 显卡 和 
CPU 进行 基准 测试 的 工具 。 
支 持 Windows 和 Mac OSX。 
按 下 CINEBENCH 键 后 , 程 
序 自 动 执行 ， 非常 简便 。 测 
试 结果 在 窗口 左面 的 排行 榜 
中 显示 。CINEBENCH 的 测试 


结果 常会 被 公布 在 很 多 PC 评 


Video playback and transcoding, DirectX 10 等 娱乐 类 功能 测试 


Creativity suite 


High Quality Video transcoding, Image manipulation 等 图 像 处 理 关系 的 测试 


Computation suite 


System Storage suite 


Video transcoding, Image manipulation 的 测试 


各 种 数据 ( picture, video, music, gaming 等 ) 的 输入 输出 测试 


File Edit ‘Yiew ‘msert ‘Format ‘He I 
| olslgl gal 坦 | 4| 旦 二 | 辐 |。 | 氏 || 
Fa a Si EE als U 


i 
-gaming=<X> Set Gaming suite, where <x> is on or off. Default value is on: 
-music=<X> Set Music suite, where <x> is on or off. Default value is on 
tie ns=<x> Set Communications suite, where <x> is on or off. Default value is on 
-productivity=<x Set Productivity suite, where <x> is on or off. Default value is on 
-hdd=<x> ee Storage device suite, where <x> is on or off. Default value is on 
-Tes=<W>X<h> Set ben nchmark resolution <w>x<h> The aspect ratio must be 4:3. Example 
-res=1024x768 
filter=<x> Set texture filtering mode, where <x> can be ‘optimal', ‘bilinear, trilinear or 'anisotropic Example: -filter=optimal which is the default 
-aniso=<X> Set maximum anisotropy to be used with anisotr ropic filtering. 
-aa=<x> Set pixel processing mode, where <x> can be ‘off, nonmaskable for non-maskable anti-aliasing orthe sample count for anti-aliasing. Example 
aa=4 for four sample anti-aliasing. The default value is not to use any pixel processing 
-aaq=<X> Set anti-aliasing quality. 
-fullprec Forces fll fa ating point precision in shader calci pe 
-vshader=<x> Enable | able forced a vertex shaders, Where <x> can be ‘hw or “sw. Example: -vshader=sw for software forced vertex shaders. The 
default value is ‘hw. 
-SENVICeS=<X> Enable or dis a system services (Windows Search, Volume Shadow Copy and SuperFetch) during the benchmark run, where <x> is on or off. 
Default value is off. 
<filename> The result output file. The results are saved in the given output file. [filename] MUST have a .pcr extension (i.e. pcmark_result.pcr) E> 
Example 
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tat Nawt tinnw 
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有 图 7 PCMark 的 相似 代 本 作 网 页 


© FUTUR=MARK” FUTUREMARK 3D MARK PEACEKEEPER YOUGAMERS GAMES 


[人 


SDMARK BENCHMARKS STORE SUPPORT RESULTS HALLOFFAME COMPETITIONS 
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Version: 1.4.0 
SystemInfo Version: 4.15 
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Link to this result http://www.3dmark.com/pcm7/ 
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基准 测试 的 基础 [PC 篇 ] | 


价 杂 志 与 网 站 上 。CINEBENCH 既 可 以 测试 多 
核 CPU， 也 可 以 测试 单 核 CPU。 可 以 测定 程 

运行 在 多 核 状态 与 单 核 状态 性 能 的 差异 ， 并 
且 文 持 命 令 行 局 动 。 


4 DirectX 基准 测试 工具 介绍 


与 CINEBENCH 同样 ，Futuremark 的 3DMark 
(图 10) 作 为 DirectX 基 准 测 试 工 具 被 PC 杂 

志和 网 站 广 为 介 绍 。 本 文 执笔 时 , 已 经 有 与 
DirectX10 相 对 应 的 3DMark VANTAGE， 以 及 和 
DirectX11 相对 应 的 3DMarkl11。 并 且 ， 公 司 还 发 
布 PCMark 的 免费 版 (Basic Edition), 和 可 以 支持 
自 定 义 设 置 的 Advanced Edition 以 及 可 以 支持 命 
令 行 执行 的 Professional Edition (可 用 于 演示 的 无 
限 循 环 处 理 功 能 )。 它 们 大 部 分 是 针对 于 性 能 需 


图 8 上 自己 系统 的 内 核 信息 ， 可 与 网 页 上 公布 的 其 他 系统 进行 比较 。 
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Graphics - DirectX 9 / Graphics - DirectX 9 


Graphics - DirectX 9 iteration 1 10.8 
Graphics - DirectX 9 iteration 2 10.8 
Graphics - DirectX 9 iteration 3 10.8 


Image manipulation / Image manipulation 


Image manipulation iteration 1 10.7 
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System storage - Windows Defender / System storage - Windows Defender 
System storage - Windows Defender iteration 1 5.36 
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System storage - gaming / System storage - gaming 


System storage - gaming iteration 1 15.1 
System storage - gaming iteration 2 15.1 
System storage - gaming iteration 3 15.0 


System storage - importing pictures / System storage - importing pictures 


System storage - importing pictures iteration 1 23.5 
System storage - importing pictures iteration 2 23.6 
System storage = importing pictures iteration 3 23.2 
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Video playback iteration 1 24.0 
Video playback iteration 2 24.0 
Video playback iteration 3 24.0 
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是 否 拥 有 自己 的 评价 标准 


基准 测试 应 用 技术 
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求 很 高 的 游戏 而 开发 的 。3DMark 与 PCMark 同样 ， 
基准 测试 结果 数据 公布 在 很 多 网 站 上 (图 11)。 


4 存储 器 基准 测试 工具 介绍 


硬盘 与 闪存 等 存储 器 的 性 能 因素 对 PC 整 
体 性 能 有 莫大 的 影响 ， 这 个 前 面 曾经 提 到 过 。 
Crystal Diskmark( 图 12) 可 以 免费 旦 方便 地 评 
测 出 存储 器 的 性 能 。 它 文 持 线性 读 写 处 理 、 可 


了 图 9 MAXON CINEBENCH( OpenGL 基 准 测 试 工具 ) 


记 CINEBENCH R11.5 (64 Bit) 
F271 负 A 入 儿 7 
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MAXON 3D FOR THE REAL WORLD 


变 长 数据 随机 读 写 、 测 定 结果 的 实时 显示 等 功 
能 ， 数 据 结果 客观 且 吻 于 理解 。 而 且 ， 测试 用 
文件 大 小 可 以 随时 变化 ， 这 是 为 存储 侣 拥有 大 
容量 绥 存 ， 而 数据 文件 又 比较 小 的 情况 下 ， 能 
够 正确 测量 缓存 性 能 而 准备 的 。 在 此 之 前 ， 对 
于 测试 时 绥 存 溢出 的 情况 ， 人 往往 会 出 现 写 操作 
性 能 极端 降低 的 情况 。 而 利用 这 一 功能 ， 通 过 
改变 文件 的 大 小 则 可 以 解决 这 一 问题 。 


models | 


OpenGLODJ7 一 xX 又 于 久 卜 ... 实行 


允 应 用 程序 式 的 基准 测试 工具 介绍 


4 姬 野 基 准 测 试 工具 ( himenoBMTxp ) 


一 般 的 PC 是 以 整数 运算 为 主 ， 用 于 模拟 
流体 分 析 的 程序 则 是 采用 浮 点 小 数 运 算 ， 从 一 


个 状态 得 到 结 


进行 再 计算 , 循环 往复 地 进行 。 


这 种 计算 往往 需要 上 万 回 ， 因 此 运算 速度 是 至 


有 图 11 


| 图 3DMark Basic Editio 


SS 3DMARK 


3Dmark 内 核 信息 在 Web 网 页 的 显示 
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基准 测试 的 基础 [PC 篇 ] 


关 重 要 的 。 姬 墅 基准 测试 工具 是 面向 理化 研究 
所 的 计算 中 心 而 制作 的 非 压缩 流体 分 析 型 基准 
测试 工具 (图 13)。 

这 种 测试 工具 的 计算 结果 以 FLOPS (Floating- 
point Operations Per Second ) 为 单位 ， 它 表示 1 
秒 内 浮 点 小 数 运算 的 次 数 。 除 了 Windows 版 和 
Mac 版 ， 姬 野 还 支持 在 FORTRAN 语 言 和 C 语 
言 的 开源 程序 ， 使 用 很 广泛 。 
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V 图 13 姬 野 基 准 测试 工具 
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是 否 拥有 自己 的 评价 标准 ? 能 否 发 现 系 统 性 能 瓶颈 ? 


基准 测试 应 用 技术 


4 SPECVviewperf 


这 是 SPEC (Standard Performance Evaluation 
Corporation) 公司 面向 OpenGL 的 基准 测试 工具 
(图 14)。 它 最 大 的 特征 是 其 主体 由 一 些 软件 供 
应 商 二 接 提供 的 产品 组 成 ， 可 以 用 来 测试 实际 
运用 软件 的 执行 情况 ,得 到 性 能 结 采 。 显 卡 的 
测试 结果 单位 是 frames/sec， 保存 在 /SPECv/ 


SPECviewperf/viewperf/viewperfl1.0/results 
这 个 路 径 下 ， 且 针对 CAD 、CG 的 测试 提供 了 


Viewset 功 能 (参照 下 图 )。 


*() 内 为 Viewset 名称 

LightWave(Light01) 

CATIA(catia-03) 

Ensight(ensight-04) 

Maya(maya-03) 

Pro/ENGINEER(proe-05) 

SolidWorks(sw-03) 

Siemens Teamcenter Visualization Mockup 
(tcvis-02) 


Siemens NX(snx-01) 


有 图 14 SPECviewperf 


4 ”其 他 基准 测试 工具 


最 纯粹 的 基准 测试 的 工具 是 为 对 象 软件 量 
英 定 做 的 。 例 如 非常 有 名 的 模拟 软件 ANSYS 
Fluent( 图 15), 它 提供 了 用 于 基准 测试 的 代码 2。 
这 样 ， 测 试 结果 就 可 以 和 实际 结果 直接 进行 比 
较 ， 从 而 得 到 性 能 的 比较 数据 。 


4 TPC-C 


TPC-C 是 Transaction Processing Performance 
Counci1% 的 产品 ， 主 要 用 于 服务 器 的 交易 处 
理性 能 测试 , 亦 可 用 于 PC 与 数据 库 的 基准 测试 。 


这 里 就 不 多 介绍 。 


本 市 简单 介绍 了 基准 测试 的 基础 知识 。 如 


果 想 要 深入 了 解 还 需要 学 习 更 加 专业 的 知识 。 
希望 这 些 知识 能 对 你 有 效 利用 PC 知识 有 所 帮助 。 


Dhttp://www.ansys.com/Support/Platform+Support/ 
Benchmarks+Overview/ANSYS+Fluent+Benchmarks 
(3) http:/www.tpc.org/tpcc/ 


有 图 15 参考 ANSYS Fluent 的 网 页 
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aNSYS Fluent Benchmarks 

ANSYS Fluent Benchmarks 
This benchmark suite provides ANSYS Fluent hardware performance data measured Using sets enchmark problems 
selected to representtypical Usage. The ANSYS Fluent benchmark cases range in size from a few hundred- thousand cells to 
more than 100 million cells. The suite contains both pressure-base SI 
solver cases using a variety of ce 


solver cases Using 
their hardware systems and the resulting performance data is th 


Release 14.0 Test Cases 

Reacting How with Eddy Dissipation Model (eddy_417k) 

Single-stage Turbomachinery Flow (turbo_500k) 

External Flow Over an AircraftWing (aircral ft_2m) 

External Flow Over a Passenger Sedan (sedan_4m) 

External Flow Over a Truck Body with a Potyhedral Mesh (truck_poly_14m) 
External Flow Over a Truck Body 14m (truck_14m) 

External Flow Over a Truck Body 111m (truck_111m) 


ANSYS Fluent Benchmarks Archived Data 
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pT 
能 否 发 现 系 统 性 能 瓶 颈 ? 


基准 测试 应 用 技术 


， pe 


[服务 器 


第 二 部 分 主要 讲解 关于 服务 器 基准 测试 的 内 容 。 包 括 基 准 测试 的 项 目 组 成 、 测 试 目的 与 执行 计划 ， 


以 及 需 要 特别 注意 的 地 方 。 


a » 影响 服务 器 性 能 的 关键 


因素 


服务 顺 由 CPU、 存 储 希 、 人 硬盘 、 网 卡 等 组 
件 构 成 ,在 购买 前 或 使 用 时 需要 考虑 配置 的 
级 别 。 服 务 器 的 性 能 是 必须 要 考虑 的 关键 
因素 。 

影响 服务 硕 性 能 的 最 大 因素 是 CPU。CPU 
的 主要 指标 是 内 核 数 与 主 频 。 仅 次 于 CPU 的 
因素 是 内 存 与 人 硬盘。 一 般 在 选 购 的 时 候 ， 可 能 
只 会 想到 需要 的 容量 ,但 也 要 把 处 理性 能 考虑 
在 内 。 特 别 是 硬盘 ， 如 果 其 处 理 速 度 低 于 其 他 
组 件 ， 很 容易 成 为 系统 瓶颈 。 


4A ”如何 了 解 处 理性 能 


那么 我 们 应 该 如 末了 解 各 组 件 的 处 理性 
能 呢 ? 

首先 , 可 以 在 商家 的 主页 上 获取 相关 信息 。 
在 网 站 上 有 可 能 查 到 所 有 产品 的 参数 列表 ， 还 

E 查 到 在 理论 峰值 和 理想 环境 下 运行 的 性 能 
指数 。 这 些 信息 作为 参考 资料 是 没有 问题 的 ， 
可 是 在 实际 运行 环境 下 得 到 的 数值 会 存在 一 定 
偏差 。 


同时 会 对 服务 器 的 构成 作 进 


一 步 说 明 。 
文 / 蔷 城 拓 哉 Twitter @tafujish 译 / 叶 东 


要 了 解 实际 运行 环境 下 的 性 能 指数 ， 只 能 
目 己 动手 进行 基准 测 。 


4 需要 哪些 基准 测试 


在 做 基准 测试 之 前 ， 先 要 确定 执行 哪些 内 
容 ， 即 需要 取得 哪些 方面 的 信息 。 
首先 ,需要 取得 CPU、 硬 盘 等 组 件 的 基 


准 测 试 信息 。 然 后 根据 这 些 信 息 再 去 测试 其 他 
组 件 。 
其 次 ， 需 要 安装 中 间 件 ， 利 用 它 来 获取 基 


准 测试 的 信息 。 例 如 ， 通 过 Apache httpd 可 以 得 
到 HTTP 服 务 器 的 基准 测试 信息 ,通过 MySQL 
可 以 得 到 数据 库 服务 器 的 基准 测试 信息 。 它 们 


最 后 ， 对 目标 应 用 或 系统 进行 负载 测试 ， 
以 验证 性 能 是 否 达到 理想 状态 ， 确 认 哪 里 还 存 
在 系统 上 瓶 贷 。 

倘 知 在 测试 开始 就 已 有 目标 应 用 ， 那 就 会 
比较 方便 。 但 在 选 定 服务 瘟 时 ， 目标 应 用 往往 
还 未 最 后 完成 ， 这 样 就 只 能 通过 对 各 个 组 件 和 
中 间 件 进行 基准 测试 ， 来 模拟 实际 运行 指标 。 

对 于 产生 系统 瓶 贷 的 原因 ， 需 要 深入 地 调 

这 时 就 需要 了 解 各 组 件 的 关联 性 。 例 如 ， 
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基准 测试 应 用 技术 


就 数据 库 服务 器 而 言 ，CPU 与 硬盘 存在 很 深 的 
相互 依存 关系 ， 接 下 来 我 们 束 看 一 看 CPU、 便 
、 内 存 和 网 络 接 口 的 基准 测试 结果 吧 。 


进行 基准 测试 前 需要 注 


意 的 地 方 


克明 确 目的 


首先 要 明确 基准 测试 的 目的 。 例 如 ， 对 于 
服务 器 升级 而 言 ， 新 服务 器 与 日 服务 器 相 比 ， 
性 能 提升 多 少 个 百分点 ? 配置 新 的 服务 器 时 选 
择 哪 些 三 商 的 产品 ? 这 样 就 需要 比较 若干 服务 
器 或 CPU 的 基准 测试 结果 。 上 有 具体 来 说 ， 应 把 
与 测试 的 关联 项 目 整 理 出 来 以 后 ， 再 进行 基准 
测试 。 

举 一 个 其 他 的 例子 ， 比 如 对 于 耗 电 量 与 性 
能 比 、“ 单 个 机 柜 耗 电 上 限 为 4 千瓦 ， 能 得 到 
的 最 大 性 能 是 多 少 ”等 关于 耗 电量 的 问题 ， 不 
仅 要 进行 基准 测试 ， 还 要 测量 耗 电 量 。 

另外 , 在 目标 应 用 程序 尚未 完成 的 情况 下 ， 
应 让 操作 系统 和 中 间 件 尽 可 能 接近 实际 运行 环 
境 。 如 果 使 用 与 目标 应 用 程序 功能 类 似 的 基准 
测试 程序 ， 就 能 得 到 更 加 接近 实际 运行 环境 的 
测试 结 

综 上 所 述 ， 漫 无 目的 地 进行 基准 测试 是 不 
可 取 的 ， 需 要 事先 计划 ， 以 缩短 测试 时 间 ， 防 
止 遗漏 测试 项 目 。 


4 检查 BlOS 的 设置 


基准 测试 实施 前 ， 需 要 检查 服务 从 BIOS 
的 设置 。 


特别 是 省 电 功 能 ， 对 整体 性 能 的 影响 是 很 
大 的 。 在 服务 大 上 我 们 经 党 能 看 到 “高 耗 电 时 
性 能 最 高 " “最 高 性 能 ”“ 耗 电 优 先 ” 等 选项 
(图 1)。 当 需要 测试 最 大 性 能 的 时 候 ， 需 要 选 
择 “ 最 高 性 能 "。 缺 省 值 的 设置 方法 ， 各 广 家 
都 不 一 样 ， 需 要 注意 。 


4 确保 在 相同 环境 下 测试 


多 项 目的 基准 测试 应 该 尽量 在 同一 环境 下 
实施 。 也 就 是 说 ， 基 准 测 试 工具 、 操 作 系 统 、 
编译 器 (GCC 等 ) 的 运行 版 本 要 一 致 ， 以 防 版 
本 差异 造成 测试 结果 的 偏差 。 

另外 在 基准 测试 中 ， 需 要 尽量 降低 不 必要 
的 机 器 负荷 。 对 于 Linux、UNIX 等 操作 系统 ， 
利用 ps 或 top 等 命令 就 可 以 关闭 不 必要 的 进程 ， 
以 减轻 机 带 人 负 人 入， 从 而 保证 测试 结果 的 准确 性 。 


4 愉 测 系统 瓶颈 


一 般 来 说 ， 基 准 测 试 工具 在 获取 实际 数据 
前 需要 反复 测试 ， 检查 是 否 存 在 预料 之 外 的 系 
统 瓶 令 ， 以 及 预料 中 的 系统 瓶 令 部 分 是 否 真 的 
超 负 和 三。 例如 ， 基 准 测试 工具 日 映 是 否 给 CPU 


Y 图 1 BIOS 设 置 的 参考 示例 
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造成 过 高 负荷 ， 或 者 缓存 中 的 数据 无 法 通过 IO 
正常 到 达 存 储 装置 等 。 男 外 ， 对 于 客户 端 / 服 
务 需 型 的 系统 来 讲 , 客户 端 也 是 可 能 产生 瓶颈 的 。 

男 外 还 需 注意 物理 的 系统 瓶 贷 。 例 如 ， 如 
果 网 络 基准 测试 对 象 的 物理 带宽 是 1 Gbiys， 那 
么 它 的 性 能 上 限 就 是 1 Gbit/s。 同 样 ,硬盘 的 
SATA 接口 、SAS 接 口 或 PCI 总 线 接口 都 存在 
数据 传送 速率 的 上 限 。 虽 然 这 些 地 方 基本 上 不 
会 出 现 系 统 瓶 贷 ， 但 了 解 一 下 基准 测试 对 象 的 
物理 构成 也 不 是 坏事 。 


4 虚拟 环境 的 基准 测试 


对 虚拟 环境 做 基准 测试 是 比较 困难 的 。 基 
准 测 试 工 具 的 基本 流程 是 ,在 进行 一 定量 的 处 
理 后 ,测试 完成 此 处 理 所 花 费 的 时 间 ， 或 者 在 
单位 时 间 可 以 完成 处 理 的 数量 。 也 就 是 说 ， 处 
理 花 费 了 多 长 时 间 是 至 关 重 要 的 。 然 而 ， 虚 拟 
机 环境 中 测 出 的 时 间 往 往 是 不 准确 的 。 虚 拟 环 
境 并 不 是 对 CPU 进行 实时 处 理 ， 时 钟 单元 也 经 
常 处 于 模拟 状态 。 系 统管 理 程序 (hypervisor) 的 
种 类 和 版 本 不 同 , 对 CUP 负 载 测试 的 影响 也 不 同 。 
另外 , 其 他 虚拟 机 所 产生 的 负荷 影响 也 是 存在 的 。 

作为 解决 方案 ， 因 为 客户 端 / 服 务 需 型 的 
系统 是 适合 进行 基准 测试 的 ， 所 以 可 以 把 物理 
机 作为 客户 端 ， 虚 拟 机 作为 服务 器 ， 这 样 就 能 


表 1 服务 器 的 配置 
ES 


Intel Xeon E5-2670 ( 2.6GHz/8 核 )2 个 
PC3-10600R 8GB 4 组 


基准 测试 的 基础 [服务 器 篇 ] 


降低 虚拟 环境 造成 的 影响 了 。 

不 过 可 能 有 些 人 布 望 能 够 使 用 自己 常用 基 
准 测 试 工具 。 那 就 需要 事先 进行 扎实 的 测试 ， 
确认 测试 时 间 是 否 有 和 较 大 的 出 入 。 因 为 处 理 时 
间 是 作为 结果 输出 的 ， 所 以 如 果 有 出 入 应 该 能 
很 容易 察觉 出 来 。 当 然 ， 也 可 以 通过 拉 长 运行 
时 间 来 降低 误差 。 在 过 去 ， 当 时 间 出 入 较 大 时 ， 
测试 人 员 甚 至 还 亲自 用 秒表 来 计时 。 

综 上 所 述 ， 对 虚拟 环境 做 基准 测试 需要 精 
心地 准备 ,结果 的 正确 与 否 也 需要 化 功夫 去 
核实 。 


蜀 CPU 的 基准 测试 


接 下 来 进入 实践 部 分 ， 我们 一 起 来 对 CPU 
进行 基准 测试 。 服 务 表 的 配置 如 表 1 所 示 ， 之 
后 所 有 的 测试 都 是 在 这 个 服务 带 上 进行 的 。 


什么 是 CPU 内 核 数 ? 什么 又 是 
ei 主 频 ? 


从 CPU 的 性 能 来 看 ， 内 核 效 、 主 频 应 该 重 
视 哪 个 呢 ? 众所周知 ， 所 有 软件 基本 上 都 是 主 
频 越 高 ， 运 行 的 速率 越 快 。 但 并 非 内 核 数 越 多 ， 


HP ProLiant DL360p Gen8 


Disk SAS 15000rpm RAID10 4 组 ，RAID 缓 存 1GB 
NIC Intel X520-DA2 10 Gbit/s 
Oe CentOS 6.4 x86_64 (最 小 安装 )， 使 用 系统 标准 GCC 


O7 
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运行 的 速率 越 快 。 因 为 多 核 速 率 的 提高 ， 还 取 
决 于 并 行 处 理 的 个 数 。 例 如 ,一 个 拥有 8 核 的 
CPU 上 只 运行 了 4 个 进程 ， 这 就 说 明 只 使 用 了 
CPU 性 能 的 一 半 。 使 用 Apache httpd 生 成 多 个 
进程 、 在 同一 服务 器 上 运行 多 个 软件 ， 或 者 使 
用 多 线程 处 理应 用 ， 都 可 以 体会 到 多 核 的 好 处 。 
进行 基准 测试 时 ， 还 需要 注意 并 行 处 理 的 个 数 
问题 。 一 般 来 说 , 非 并 行 处 理 就 相当 于 单 核 测 试 。 
如 果 是 多 核 测试 ， 则 应 该 增加 并 行 处 理 的 个 数 。 

多 核 的 基准 测试 还 有 一 点 比较 重要 。Intel 
公司 的 Hyper-Threading Technology (以 下 简称 
HTT) 产品 ， 把 一 个 物理 内 核 看 作 两 个 逻辑 内 
核 ， 虽 然 可 以 当 作 双核 CPU , 但 是 性 能 上 还 达 
不 到 加 倍 的 效果 ， 最 多 只 能 提升 10% 一 30%。 
使 用 的 软件 不 同 ， 性 能 的 提升 率 也 不 一 样 ， 即 
便 用 同样 的 基准 测试 程序 来 测试 ， 结 果 也 会 产 
生 差 寞 。 所 以 ，HTT 设 置 为 有 效 还 是 无 效 ， 对 
于 测试 结 采 也 会 产生 至 关 重 要 的 影响 。 

综 上 所 述 ， 对 于 CPU 基准 测试 ， 需 要 注 
意 针 对 的 是 单 核 还 是 多 核 。 


4 什么 是 CPU 性 能 指标 的 单位 


CPU 性 能 指标 的 基本 单位 是 MIPS (Million 
Instructions Per Second) 和 FLOPS (Floating- 
point Operations Per Second)。MIPS 是 1 秒 钟 
可 以 执行 命令 的 数量 (100 万 次 )，FLOPS 是 1 
秒 钟 内 浮 点 小 数 的 运算 次 数 。 浮 点 小 数 计算 在 
HPC (High Performance Computing ) 中 被 广泛 
使 用 ， 但 对 于 一 般 的 服务 器 来 讲 并 不 重要 。 

我 们 来 简单 地 看 一 看 MIPS 数值 ， 执 行 下 
面 的 命令 。 


ets 1/ oltred/el ellie 
~ 省 略 ~ 


elele [e] 11] EE NEY 
Eh 


我 们 得 到 了 以 内 核 为 单位 的 BogoMips 的 
。 数 值 越 大 代表 人 处理 速度 越 快 。 伴 随 主 频 
的 提高 ， 这 个 数值 也 会 变 大 。 但 是 ，Bogo 也 
正和 bogus( 假 货 ) 的 意思 一 样 ， 只 是 单纯 地 重 
复 执 行 命令 ， 对 CPU 性 能 的 表达 并 不 全 面 。 
下 面 就 来 介绍 一 下 真正 的 基准 测试 工具 。 


A UnixBench 


UnixBench 是 一 款 很 老 的 基准 测试 工具 ， 
是 针对 Dhrystone >、Whetstone “等 比较 传统 的 
CPU 制作 的 。 它 通过 文件 复制 处 理 、SHELL 操 作 ， 
以 及 进程 生成 、 系 统 调用 、 超 负荷 运行 等 与 操 
作 系统 相 关 的 部 分 的 测试 得 到 结果 。UnixBench 
不 只 用 于 CPU 的 基准 测试 。 


4 UnixBench 的 编译 与 运行 


如 图 2 所 示 ， 首先 需 要 安 疤 编 译 程 序 包 ， 
然后 下 载 UnixBench 源 程序 ， 通 过 编译 后 就 可 
以 运行 了。 如 琳 项 目的 测试 时 间 很 长 ， 则 只 测 
试 3 次 ,如果 短 ， 那 么 可 以 运行 10 次 。 先 运行 
一 次 “并 行 数 为 1” 的 测试 ， 然 后 执行 “并 行 数 
为 内 核 数 ”的 测试 。 完 成 全 部 测试 需要 一 个 小 
时 左右 。 


如 果 目 标 服 务 髓 的 理论 内 核 数 超过 16， 就 


CD http://code.google.com/p/byte-unixbench/ 

@@ 由 Reinhold P.Weicker 在 1984 年 开发 的 不 包含 浮 点 小 数 运 
算 、 面 向 整数 和 文字 运算 的 性 能 测试 程序 。 

G@) 英 国 国家 物理 研究 所 开发 的 以 浮 点 小 数 运 算 为 主 的 性 能 
测试 程序 。 


Cm 
~ 


SS 
PP 


不 能 直接 进行 并 行 测试 。 实 在 需要 的 话 ， 请 参 


考 UnixBench 网 页 上 题 为 Can'tdo default run 


completely with > 16 CPUs 的 帖子 , 那里 介绍 


了 使 用 批 处 理 程序 实现 的 方法 。 


4 UnixBench 测试 结果 


测试 结 末 和 标准 得 出 一 起 以 文本 和 html 的 
形式 保存 在 results 目录 中 。 测 试 结果 由 “并 行 


数 为 1” 和 “并 行 数 为 内 核 数 ” 组 成 。 


有 图 2 UnixBench 的 编译 和 运行 


$ sudo yum -y install perl perl-Time-HiRes make gcc 


$_ curl http://byte-unixbench.googlecode.com/files/UnixBench5.1.3.tgz | tar ZX 


$ cd UnixBench 


$ ./Run 运行 编 详 与 基准 测试 的 程序 


有 图 3 UnixBench 的 运行 结果 


基准 测试 的 基础 [服务 器 篇 ] 


笔者 运行 了 “并 行 数 为 32” 的 测试 , 结 
请 参考 图 3。 最 后 可 得 出 System Benchmarks 
Index Score 的 数值 为 8613.1 的 结 
试 的 结果 ， 都 是 以 Sun SPARCstation 20 SM61 
(1995 年 的 计算 机 ) 的 性 能 基准 值 为 10 进 行 比 
较 计 算 的 。 

如 果 需 要 系统 的 综合 性 能 指标 ， 可 以 参考 
这 个 Score 数值 。 如 末 需 要 CPU 的 整数 计算 性 
能 ， 可 以 参考 Dhrystone 的 测试 结 


。 每 个 测 


下 载 软件 包 
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本 次 的 测试 条 件 为 8 核 2 组 的 新 型 CPU， 
将 HIT 设 置 为 有 效 ， 最 后 得 到 了 高 效 的 处 理 
结 末 。 


在 HTT 无 效 的 情况 下 , Score 的 数值 为 
7412.0， 比 HTT 有 效 时 处 理 速度 降低 了 20%。 


全 硬盘 的 基准 测试 


以 下 进行 便 盘 IO 的 基准 测试 。 这 种 测试 适 
用 于 人 硬盘 与 硬盘 组 的 RAID 阵列 或 外 置 存储 器 


A 硬盘 1/O 的 基准 测试 


基准 测试 对 象 有 几 种 组 合 方式 。 例 如 ， 
SAIA 便 盘 、SAS 硬盘 或 者 回转 速度 (RPM ) 都 
会 对 速度 产生 影响 。 而 对 RAID 阵列 来 说 ， 硬 
盘 数 和 RAID 级 别 对 速度 也 会 产生 一 定 影响 。 
RAID 控制 卡 也 是 影响 因素 。 外 部 存储 需 也 是 
同样 有 硬盘 数 和 RAID 级 别 ， 控 制 器 的 性 能 也 
会 对 速度 产生 影响 。 

无 论 是 怎样 的 结构 ， 都 必须 是 操作 系统 可 
以 识别 的 设备 。 但 是 ， 作 为 文件 系统 ， 都 需要 
格式 化 和 设备 链接 等 操作 ， 所 以 文件 系统 也 是 
影响 设备 IO 处 理 速度 的 因素 。 

硬盘 IO 的 处 理 有 4 种 情况 。 

。 读 处 理 ( Read )、 写 处 理 ( Write ) 

。 线 性 /0 处理、 随机 (无 序 )1/O 处 理 


用 于 大 文件 的 处 理 和 大 量 日 志 输 出 的 时 候 ， 
一 般 采 用 线性 VO 人 处理。 而 用 于 大 量 小 文件 的 
处 理 以 及 数据 库 操 作 的 时 候 , 一 般 采 用 随机 (无 
序 )VO 处 理 。 


4 硬盘 的 1/O 处 理 指标 


硬盘 的 IO 处 理 指标 ， 主 要 是 传输 量 
IOPS (Input/Output Per Second)、 应 答 延 迟 率 
等 。 传 输 量 (也 叫 带 宽 ) 是 1 秒 钟 传送 数据 的 
量 ， 单 位 是 Byte/sec(B/s)。 线 性 IO 处 理 的 情 
况 下 ， 容 易 造成 系统 瓶 贷 ， 只 要 看 这 个 指标 就 
可 以 了 。 例如 ，iSCSI 或 者 NAS 的 外 部 存储 器 
按照 1 Gbit/s 连接 的 话 ， 按 照 Byte 来 换算 ,就 
这 就 是 有 可 能 形成 系统 瓶颈 的 物 
理 带 宽 的 上 限 值 。 

IOPS 就 是 1 秒 钟 处 理 1/O 的 量 。 在 随机 IO 
处 理 的 情况 下 ， 设 备 本 喘 成 为 系统 瓶颈 的 可 能 
性 更 大 ， 所 以 参照 这 一 数值 即 可 。 

通常 采用 以 上 两 种 指标 就 可 以 进行 基准 测 
试 。 还 需要 注意 的 是 ， 在 查找 性 能 瓶 祷 时 ， 也 
需要 把 应 答 延 迟 率 考虑 在 内 。 根 据 处 理 量 不 同 ， 
毫秒 级 性 能 提升 也 可 能 要 考虑 应 答 延 迟 率 ， 即 
1/O 处 理 从 请 求 发 出 、 结 束 处 理 到 返回 花费 的 
时 间 。 


是 125 MB/s， 


4 ”用 fio 进 行 基准 测试 


外 是 对 硬盘 系统 做 基准 测试 的 强 有 力 工 
具 。 它 的 功能 设 定 多 而 复 淋 , 看 上 去 好 像 不 好 用 。 
以 下 介绍 几 种 简单 的 功能 。Windows 系统 常用 
的 IO 基准 测试 工具 是 
CrystalDiskMark 进 


CrystalDiskMark。 使 用 
行 批 处 理 的 方法 ， 可 以 人 参 
考 WinKey 的 网 页 mn 个 网 
页 的 内 容 做 说 明 。 


(4) http://freecode.com/projects/fio 
(0) http://www.winkey.jp/ 


4 fio 的 编译 和 运行 


如 图 4 所 示 ， 先 要 安装 编译 所 知 要 的 文件 ， 
然后 下 载 fio 的 模块 ， 编 译 以 后 再 安装 。 

fio 的 应 用 主要 有 两 种 方式 。 一 种 是 以 命 
令 形式 不 断 输入 设置 内 容 ， 另 一 种 是 以 fo 命 
令 调 用 制作 好 的 任务 文件 ， 可 以 同时 进行 多 种 
测试 。 以 下 着 重 介绍 一 下 第 二 种 方式 。 这 种 方 
式 需 要 先 把 任务 文件 从 WinKey 的 网 页 下 载 下 
来 ， 然 后 用 fio 命 令 运行 。 

使 用 --output 参 数 可 以 将 输出 文件 定位 到 一 
定 路 径 下 ， 以 便 参 考 。 男 外 ， 由 于 需要 进行 多 
种 测试 , 因此 以 文件 形式 输出 还 是 有 一 定好 处 的 。 


4 任务 文件 的 重要 设置 


运行 任务 文件 之 前 ， 先 介绍 一 些 重要 的 设 
置 。 这 也 是 运行 其 他 IO 基准 测试 工具 前 需要 


V 图 4 fio 的 编译 和 运行 


sudo yum -y install libaio-devel make gcc 


cd fio-2.0.15 


ilel<9 < 
| 续 译 


sudo make install 


基准 测试 的 


础 [服务 器 篇 ] GE 中 御 


注意 的 内 容 。 请 参考 下 载 后 的 任务 文件 (图 5)。 

size=1 g 是 基准 测试 使 用 的 数据 大 小 。 
RAID 卡 和 外 部 存储 器 往往 带 有 上 自己 的 缓存 。 
1 g(1GB) 大 小 基本 占用 了 所 有 的 缓存 ， 因 此 
可 能 无 法 测 出 硬盘 本 身 的 性 能 数据 。 例 如 ， 绥 
存 为 1 G 的 情况 下 ， 需 要 测试 使 用 全 缓存 时 就 
应 设置 为 512 m (512 MB), 缓存 不 够 用 的 情况 
下 设置 为 10g(10 GB)。 以 下 ,我们 就 将 缓存 
设置 为 10 g 来 测试 。 

direct=1 代表 直接 操作 硬盘 的 模式 。 便 盘 
LO 使 用 的 是 操作 系统 上 的 缓存 ， 将 这 一 缓存 
未 使 用 的 部 分 给 基准 测试 使 用 。 测 试 硬盘 性 能 
的 时 候 ， 需 要 设置 为 1。 


4 fio 测试 结 


测试 结果 被 保存 在 指定 目录 下 。 笔 者 的 执 
行 结 果 如 图 6 所 示 。 


下 载 软件 包 


curl http://brick.kernel.dk/snaps/fio-2.0.15.tar.bz2 | tar jx 


| 下 载 任务 文件 


curl -~o crystaldiskmark.fio http://www.winkey.jp/downloads/visit.php/fio-crystaldiskmark 


fio --output=./fio_result.txt ./crystaldiskmark.fio 


图 5 任务 文件 
[globall 


loengine=]ibaio 
lodepth=1 
size=1g 
direct=1 


runtime=60 


directory=/tmp/ 


filename=fio-diskmark 


~ 以 下 为 测试 项 目 ~ 


运行 基准 测试 程序 


zd 


Z 


传输 量 (带宽 ) 主要 看 Seq-Read 和 Seq-Write 
这 两 个 结果 。bw 值 就 是 线性 读 取 时 的 传输 速率 ， 
为 381536KB/s。 

IOPS 主要 看 Rand-Write-4K-QD32 和 Rand- 
Write-4K-QD32 的 结果 。IOPS 值 是 随机 写 的 操 
作 结 果 ， 为 2452IOPS。 

本 次 使 用 1GB 缓 存 、4 个 15000rpm 的 SAS 
人 硬盘， 并 且 以 RAID10 形 式 设置 ,测试 结果 是 
非常 高 速 的 。 

fo 具有 很 多 可 以 设置 的 项 目 ， 可 以 通过 
修改 任务 文件 来 尝试 。 


到. 全 内 存 的 基准 测试 


4 能 否 只 参考 内 存 容量 


确定 服务 占 等 级 时 ,需要 先 选择 内 存 容量 。 
之 所 以 很 少 测试 服务 硕 的 内 存 速度 ， 是 因为 内 
存 处 理 速度 是 很 快 的 ， 相 比 之 下 ， 其 他 地 方 更 
容易 形成 系统 瓶颈 。 因 此 内 存 的 处 理 速度 对 应 
用 程序 的 影响 不 大 。 


图 6 fio 的 运行 结果 
~ 省 略 ~ 


内 存 处 理 速度 主要 受 主 频 的 影响 。 例 如 ， 


PC3-12800 主 频 为 1600 MHz。 主 频 越 大 应 该 越 
快 。 还 需 考虑 使 用 通道 问题 ， 也 就 是 内 存 插 在 


了 哪个 插 模 ， 由 几 片 组 成 。 另 外 ， 内 存 处 理 速 
度 与 服务 需 的 年 代 也 有 关 ， 购 买 前 最 好 参考 产 
品 说 明 书 。 比 较 内 存 的 基准 测试 结果 ， 正 确 地 
使 用 内 存 通道 ， 这 点 更 加 重要 。 


A 用 SysBench 进行 基准 测试 
SysBench “不单 对 内 存 ， 对 CPU 和 其 他 
方面 (数据库 OLTP ) 都 可 以 进行 测试 。 


4 SysBench 的 编译 与 运行 


如 图 7 所 示 安 装 编 译 所 需 文 件 。 下 载 SysBench 
源 程序 ， 编 译 后 安装 好 。 由 于 在 这 里 不 进行 OLTP 
的 测试 , 因此 在 配置 时 应 设置 为 -without-mysql。 
如 条 需要 测试 数据 库 ， 那 么 在 安装 MySQL 程 
序 包 后 把 --without-mysql 删 掉 就 可 以 了 。 

内 存 JIO 的 测试 与 硬盘 VO 一 样 , 由 读 处 理 、 


(©) http://SysBench.sourceforge.net/ 


Seq-Read: (groupid=0, jobs=1): err= 0: pid=4286: Fri May 17 04:34:23 2013 


read : 1o=10240MB ,|bw=381536KB/s ,| ijops=372 ，runt= 27483msec 


slat (usec): min=58 , max=458 ，avg=61.34， 


stdev= 6.55 


clat (usec): min=165 , max=218217 ,avg=2621.01, stdev=4375.96 
1]at (usec): min=231 ，max=218287 ，avg=2682.53，Sstdev=4376.68 


~ 省 略 ~ 
Rand-Write-4K-QD32: (groupld=7，jobs=1): err= 0: pid=4296: Fri May 17 04:34:23 2013 


Write: io=588888KB, bw=9811.3KB/s, |iops=2452 ,| runt= 60022msec 


slat (usec): min=4 ，max=17111 ，avg= 9.92， 
clat (usec): min=1 ，max=40593 ，avg=13034.62， 
lat (usec): min=24 ，max=40601 ，avg=13044.69， 


~ 省 略 ~ 


stdev=103.52 


stdev=6690.25 
stdev=6689.90 


写 处 理 、 线 性 IO 处理、 随机 IO 处理 四 种 情 
况 组 成 。 内 存 VO 基 本 上 是 随机 完成 的 ， 所 以 
不 会 太 在 意 使 用 的 是 线性 处 理 还 是 随机 处 理 。 

内 存 VO 测 试 运行 选项 是 --test=memory。 
设置 读 处 理 或 者 写 处 理 只 要 把 --memory-oper 
设 为 Read 或 者 Write 就 可 以 了 。 把--memory- 
access-mode 设 置 为 seq( 线 性 VO 人 处理) 或 者 
rnd (随机 VO 处 理 )。 


有 图 7 SysBench 的 编译 和 运行 


基准 测试 的 基础 [服务 器 篇 ] 


4 SysBench 的 测试 结 


测试 结果 显示 在 标准 输出 装置 中 。 笔 者 执 
行 了 随机 写 处 理 (rnd/Write )， 结 果 如 图 8 所 示 。 
传输 量 的 最 终结 有 果 是 3591.55 MB/s。 

这 里 的 内 存 使 用 了 4 通道 中 的 2 通道 ， 并 
非 最 佳 配置 。 主 频 为 1333 MHz。 

SysBench 不 仅 适 用 于 内 存 ， 还 适用 于 CPU 
等 。 不 妨 斌 一 试 。 


和 寺田 人 下 我 杰 件 包 
$ curl -L http://downloads. sourceforge.net/project/sysbench/sysbench/90.4.12/sysbench-0.4.12. 轩 


tar.gz | tar zx 
cd sysbench-0.4.12 
libtoolize -=-force --copy 
./autogen. sh 

./configure --without-mysql 
make 


sudo make install 


{tH {tH HB HH HB HB HH HB 


有 图 8 SysBench 的 运行 结果 


sysbench --test=memory --num-threads=1 --memory-oper=read --memory-access-mode=seq run 
sysbench --test=memory --num-threads=1 --memory-oper=write --memory-access-mode=seq run 
sysbench --test=memory --num-threads=1 --memory-oper=read --memory-access-mode=rnd run 


sysbench --test=memory --num-threads=1 --memory-oper=write --memory-access-mode=rnd run 


Operations performed: 104857600 ( 3677744.60 ops/sec ) 


102400.00 MB transferred ( 3591.55 MB/sec ) 


Test execution summary: 


total time: 28.5114s 
total number of events: 104857600 


total time taken by event execution: 20.8725 


per-request statistics: 


min: 
avg : 
max : 


approx. 95 percentile: 


Threads fairness : 


0.00ms 
0.00ms 
0 .30ms 
0 .00ms 


events ( avg/stddev ): 104857600.0000/0.00 


execution time ( avg/stddev ): 20.8725/0.00 
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名 网 络 基准 测试 


从 服务 需 到 网 络 ， 最 初 关联 的 是 网 络 接口 
NIC (Network Interface Card )。 


4 网络 基 准 测试 的 必要 性 


服务 器 的 网 络 接口 NIC (Network Interface Card) 
一 般 都 是 1000BASE-T， 即 1 Gbiys。 面 向 服务 器 
的 网 卡 基 本 都 是 这 个 水 平 ， 因 此 是 没有 必要 对 网 
本 身 做 基准 测试 的 。 另 外 ， 伴 随 内 存 等 外 设 的 
高 速 化 和 低 价格 化 ，10 Gbivs 的 产品 会 不 断 出 现 。 

这 里 对 10 Gbits 的 网 卡 做 一 次 基准 测试 。 
所 用 方法 除了 测试 网 卡 外 ， 也 可 以 对 整个 网 络 
做 基准 测试 。 例如， 如 果 有 L2 交 换 集线器 和 
L3 交换 集线器 构成 的 局 域 网 ， 可 以 对 它 的 互 
联网 功能 进行 测试 。 


4 用 netperf 进 行 基准 测试 


netperf 是 一 款 功能 非常 强大 的 基准 测试 
工具 。 设 置 功能 繁多 , 看 上 去 不 太 好 用 。 但 是 ， 


CD http : /www.Netperf.org/netperf/ 


V 图 9 网络 结构 图 


Intel X520-DA2 


客户 终端 


IP 地 址 :192.168.248.11 
9 netperf -H 192.168.248.12 


如 打 只 测试 传输 量 ( 带 宽 )， 只 通过 缺 省 设置 台 
可 以 完成 。 


4 网 络 结构 


netperf 是 对 应 客户 端 和 服务 器 的 网 络 工 具 ， 
也 就 是 说 ， 至 少 需 要 两 台 机 器 才能 做 基准 测试 。 
这 次 测试 的 网 络 结构 参考 图 9, 使 用 DAC 把 两 
台 服 务 希 连接 ,每 全 都 朔 有 Intel 10 Gbit/s 的 网 
卡 X520-DA2。 因为 是 SFP+ 的 10 Gbits 网 卡 
才 使 用 DAC 连 接 ， 所 以 如 采 是 1000BASE-T 或 
10 GBASE-T， 则 可 以 直接 使 用 非 交 又 型 LAN 网 
线 (最近 的 新 型 网 卡 文 持 直通 型 LAN 网 线 进行 
连接 )。 

当然 ， 两 个 机 顺 之 间 加 一 个 交换 集 线 需 也 
未 尝 不 可 。 


4 netperf 编 译 与 运行 


图 10 是 安装 编译 所 需 的 软件 包 。 然 后 下 
载 netperf 源 程序 ， 编 译 后 再 进行 安 猴 。 这 两 台 
机 禹 都 需要 安 猴 这 个 软件 。 

然后 ， 在 服务 关上 运行 netserver 命令 。 和 缺 
省 端口 号 为 12865， 如 果 使 用 了 iptable 等 网 络 
过 滤 各 (防火墙),， 那么 请 将 那个 端口 打开 ， 
或 者 先 暂 停 网 络 过 滤 右 程序 。 


网 线 直 连 


Intel X520-DA2 


服务 器 
IP 地 址 :192.168.248.12 
$ netserver 


服务 器 准备 好 以 后 ， 就 可 以 开始 在 客户 端 
进行 基准 测试 了 。 以 10 秒 间隔 的 TCP 通 信 为 
缺 省 设置 。 


4 netperf 的 测试 结 


测试 结果 显示 到 标准 输出 装置 。 

笔者 的 运行 结果 如 图 11 所 示 。 最 终结 
参考 Throughput 项 目 , 单位 是 10 的 6 次 方 bit/s， 
即 Mbit/s。 以 10 Gbit/s 连接 ,传输 率 基本 接近 
物理 的 临界 值 。10 Gbivys 果然 是 10 Gbit/s 的 传 
输 率 啊 。 


有 图 10 netperf 的 编译 与 运行 
Eb 
$ sudo yum -y install make gcc 下 载 软件 包 


_ 
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基准 测试 的 基础 [服务 器 篇 ] 


netperf 还 有 许多 其 他 功能 , 值得 以 后 尝试 。 


以 上 介绍 了 各 主要 组 件 的 基准 测试 。 测 试 
完成 之 后 最 重要 的 是 确认 结果 的 正确 性 。 至 于 
为 什么 比 预想 值 俩 高 或 者 俩 低 ， 需 要 进行 细致 
的 分 析 。 要 明确 系统 答 颂 在 哪里 ， 绥 存 是 否 生 
效 。 这 些 经 验 会 加 深 对 服务 天 结构 的 理解 ， 从 
而 构建 一 个 安定 的 运行 环境 。 


$ _ curl ftp://ftp.netperf.org/netperf/netperf-2.6.0.tar.bz2 | tar jx 下 载 工具 


$ cd netperf-2.6.0 
$ ./configure 
$ make 


| 


$ sudo make install 


“在 服务 器 上 运行 


$ netserver 


“在 客户 端 上 运行 
$ netperf -H < 服务 器 IP 地 址 > 


“在 服务 器 上 的 运行 结 


$ killall netserver 


有 图 11 netperf 的 结果 截屏 


MIGRATED TCP STREAM TEST from 0.0.0.0 (0.0.0.0) port 6 AF_INET to 192.168.248.12 () port 0 AF_INET 


Recv Send Send 
Socket Socket Message Elapsed 
Size Size Size Time Throughput 


bytes bytes bytes secs. 10^6bits/sec 


87380 16384 16384 10.00 


pe 
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分 布 式 数 据 库 “ 未 来 工房 ” 


~ 只 使 用 Riak 和 Nginx 搭 
态 文件 服务 器 
其 构造 与 性 能 测试 结 


oR 


文 / 上 西康 太 ( Basho 日 本 株式 会 社 kota@basho.com ) 译 / 苏 社 


在 搭建 网 站 时 ， WO 但 如 果 要 扩容 ， 处 理 巨 大 的 流量 是 件 比 较 复 杂 


的 事情 。 负 载 均衡 、 磁 盘 元 余 、 容 量规 划 、 横 癌 扩 展 、 


缩减 ,工程 师 需要 考虑 的 问题 非常 多 。 在 这 里 ， 


我 们 将 使 用 基于 GitHub pages 中 表现 出 色 的 Riak， 在 不 编程 的 情况 下 ， 搭 建 既 可 以 维持 稳定 延迟 ， 


又 可 快速 扩展 的 静态 文件 服务 器 网 站 。 


记得 初次 搭建 Web 服 务 兢 


大 家 一 定 都 还 
的 时 候 ， 先 安装 Apache httpd, 将 写作 本 hello 


的 index.html 放 到 指定 文件 夹 ， 然 后 在 浏览 器 
里 打开 它 。 或 者 也 有 不 少 读者 可 能 记得 另 一 
种 方法 ， 即 用 FTP 客 户 闪 将 HIMEL 文 件 上 传 
到 Geocities 。 

静态 文件 服务 器 是 创建 Web 网 站 的 基础 。 
看 上 去 非常 简单 ,但 其 实 相 当 这 奥 。 比 如 说 ， 
很 多 人 可 能 有 过 这 种 经 历 ， 等 HTTP 下载 Linux 
的 ISO 镜像 等 了 一 个 晚上 ， 最 终 通过 tarball 下 
载 的 时 候 却 发 生 便 盘 故 障 ， 或 因为 超 负 荷 服 务 
器 宕 机 了 。 实 际 上 ，Web 网 站 的 服务 器 需要 使 
用 到 负载 均衡 、 人 磁盘 见 余 、 容 量规 划 、 横 向 扩 
展 、 网 络 消耗 等 众多 技术 。 

其 实 这 些 问题 ， 除 去 节省 网 络 消耗 外 ， 只 
要 使 用 两 个 软件 就 可 以 解决 了 。 那 就 是 Nginx 
和 Riak。 通 过 Nginx 完 成 负载 均衡 ， 而 磁盘 宛 


G@) 使 用 tar 命 令 打 包 的 文件 。 工 程 师 倡 语 。 


余 、 容 量规 划 、 横 向 扩展 ， 都 可 以 通过 Riak 实 
现 。Riak 容易 被 认 为 是 单纯 的 KVS (Key-value 
Store)， 并 被 拿 来 和 RDB 比较 , 但 其 接口 为 
HTTP， 并 且 可 将 数据 以 记录 为 粒度 进行 元 余 
化 ， 只 要 增加 机 硕 就 可 以 实现 权 回 扩展 。 既 可 
以 作为 数据 库 处 理 较 大 数据 的 记录 ， 也 可 以 当 
作 存 储 几 千 到 几 百 万 级 别 小 数据 的 对 象 数 据 库 
来 使 用 。 

本 连载 会 介绍 一 种 方法 ， 使 用 基于 GitHub 
pages 中 表现 出 色 的 Riak， 在 不 编程 的 情况 下 ， 
搭建 既 维 持 稳定 延迟 ， 又 快速 扩展 的 静态 文件 
服务 右 网 站 。 


我 们 假设 要 搭建 静态 文件 服务 器 的 网 站 的 
域名 为 foo.example.com。 想 要 在 这 个 网 站 中 实 
现 的 是 : 

1. 存 储 大 量 静 态 文件 。 

2. 通 过 foo.example.com/path/to/the/file 这 样 的 

URL 定 位 每 一 个 静态 文件 。 


草 

雹 | 从 往 

建 的 辣 稳 | 此 此 
局 主 


只 使 用 Riak 和 Nginx 搭 建 的 静态 文件 服务 器 | AT 


3. 静 态 文 件 的 大 小 最 多 也 不 超过 儿 MB， 

平均 为 数 百 KB。 

4. 静 态 文件 的 个 数 在 1000 一 1 000 000 000 

之 间 ， 起 初 先 小 规模 启动 。 

5. 所 有 图 片 都 会 被 以 相同 的 概率 随机 被 

读 取 。 

6. 不 会 特意 地 去 删除 图 片 (简单 起 见 )。 

7. 响 应 时 间 的 要 求 为 ， 99% 的 请 求 的 响应 

时 间 控 制 在 500 ms 以 内 。 

8. 争 取 无 服务 停止 时 间 。 

以 上 内 容 ， 特 别 是 第 4 条 的 横向 扩展 和 第 
8 条 的 停止 时 间 ， 如 果 采 用 普通 的 文件 服务 需 
及 Apache 的 HA (High Availability) 架 构 ， 实 
现 起 来 会 比较 困难 。 即 便 导 入 了 Nginx 这 样 的 
负载 均衡 希 ， 需 要 上 自行 设计 及 操作 数据 库 分 请， 
而 第 8 条 的 不 停 服 务 维 护 ， 以 及 磁盘 故障 见 余 
的 建立 和 负载 均衡 的 分 发 设 定 也 都 很 复杂 。 所 
以 ,在 这 样 的 分 工 前 提 下 ， 依 徘 功 能 本 身 更 为 
丰富 的 Riak 即 可 以 简化 系统 整体 。 

Riak 是 基于 2006 年 由 Amazon 公 开 的 Dynamo 


有 图 1 foo.example.com 的 架构 例子 


其 构造 与 性 能 测试 结果 同 | 昌 


A 


设计 出 来 的 。 它 的 主要 特性 为 ， 通 过 Consistent 
Hashing 进行 水 平分 布 、 扩 容 ， 通 过 复制 实现 
了 见 余 ， 通 过 稳定 的 啊 应 提供 高 可 用 性 等 。 除 此 
之 外 ， 它 通过 使 用 JavaScript 执 行 MapReduce， 
具有 与 除 Join 之 外 的 SQL 同 每 的 表现 能 力 。 

Riak 具 有 HTTP 接 口 ， 在 Riak 中 存储 的 数 
据 可 以 通过 浏览 奋 原 样 展示 出 来 。 因 此 ， 如 采 
这 样 就 在 互联 网 上 公开 的 话 ， 不 仪 通过 HTTP 
的 GET 方 法 可 以 访问 Riak，PUT 和 DELETE 
方法 也 可 以 不 经 过 认证 执行 了 。 为 了 防范 任意 
用 户 对 数据 的 删除 、 更 新 ， 首先 , 使 用 Riak， 
有 必要 通过 NAT (Network Address Translation ) 
来 构建 一 个 确保 不 能 直接 通过 互联 网 访问 Riak 
的 网 络 。 

因为 大 部 分 的 负载 均衡 冀 者 能 设置 为 只 处 
理 特定 的 HTTP 方 法 ,拒绝 其 他 方法 ， 如 果 读 
者 目 配 比较 熟悉 的 话 , 使 用 那个 也 没 问题 。 这 里 ， 
我 们 使 用 非常 流行 旦 高 速 的 Nginx 来 作为 例子 。 
其 实在 Nginx 之 外 ,还 有 很 多 的 免费 /商业 的 
负载 均衡 硕 ， 例 如 HAProxy、Varnish 、LVS 和 


小 贴 士 


在 使 用 云 服 务 的 情况 下 ,， 因为 环境 的 不 同 ， 
使 用 方式 也 略 有 不 同 。 如 果 是 AWS 的 EC2 ， 


使 用 Marketplace 的 AMI 比 较 好 。 在 EC2 环 
境 下 ， 所 有 的 节点 都 分 配 了 一 个 全 球 IP 地 址 ， 
最 好 使 用 一 开始 就 已 经 利用 IPSec 限制 访问 


的 官方 AMI。 若 选择 IDC Frontier， 最 好 使 
用 cloud selftype 官方 APl 或 VPC(Virtual 
Private Cloud )。 使 用 NTT 通 信和 的 Cloud" 或 
Nifty 云 等 以 CloudStack 为 基础 的 平台 的 话 ， 
可 以 让 虚拟 机 一 开始 束 被 隔离 到 了 私有 网络 中 。 


Z 
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BigIPP 等 ， 读 者 只 要 使 用 目 己 篆 用 的 就 行 了 。 


把 Nginx 设 置 为 只 允许 GET 方 法 ，PUT、 
DELETE 等 其 他 方法 都 拒绝 。 对 于 实际 的 文件 
更 新 , 这 里 为 简单 起 见 , 假设 不 通过 负载 均衡 器 
而 是 使 用 curl 直接 访问 Riak 集 群 来 进行 维护 。 

理论 上 来 说 ， 除 了 后 面 介绍 的 Riak 集 和 群 ， 
根据 使 用 场景 的 不 同 ， 下 面 这 些 内 容 也 是 会 用 
到 的 : 


用 来 上 传 文件 的 页 面 (包含 认证 及 上 传 
的 表单 ) 。 

监视 Riak 集 群 的 系统 (Zabbix 等 ) 。 
针对 系统 扩展 的 部 闭 系 统 (Puppet、 
Chef 等 )。 

获取 、 管 理 访问 日 志 以 及 切断 非法 访问 。 
为 了 降低 负载 使 用 的 CDN(Contents 
Delivery Network )。 


验证 操作 的 软件 环境 如 下 所 示 : 

。 Ubuntu Linux LTS 12.04/x86 64 

。 Riak 1.3.1 

。 Nginx - 1.1.19( Ubuntu 的 apt 版 本 ) 


。 curl 


大 部 分 便 件 都 能 运行 上 面 的 Wi 的 环 
境 。 并 且 ，Riak 几乎 文 持 所 有 的 Unix 系 平 
运行 Riak 没 有 什么 特殊 的 最 低 便 件 条 件 , 比如 : 
。8 核 的 x86 CPU 
。 内存 16~~32 GB 
。 硬 盘 8TB 
。1 GB 的 网 卡 


或 


。32 核 的 CPU 

。 内存 64~128 GB 
。 硬 盘 72 TB 

。10 GB 的 网 卡 


上 述 配 置 都 是 可 以 的 。 磁 盘 方 面 ， 需 要 使 
用 Raid0 配套 LVM、ZFS 这 样 的 目录 管理 系统 。 
并 且 ,， 这 次 使 用 Bitcask 作 为 后 端 ， 如 果 带 态 
文件 数量 太 多 的 话 ， 内 存 的 消耗 量 在 纸 上 计 算 
出 来 会 比较 好 。 说 到 磁盘 大 小 ， 可 以 通过 需 
部 署 文 件 的 大 小 乘 以 个 数 来 预 估 : 


每 人 台 的 磁盘 大 小 三 文件 的 平均 大 小 x 
台 的 文件 数 x 3 十 余 量 (20%) 


这 样 估算 是 可 以 。( 此 数值 受 故 障 率 及 网 
络 组 成 影响 ， 不 能 一 概 而 论 。 想 必 读 者 都 知道 
0 的 。) 
事实 上 ， 要 综合 考虑 便 件 的 MTBF (Mean 
Time Between Failures) 和 MTR (Mean Time to 
Recovery)， 以 及 网 络 带 宽 来 进行 总 体 设计 ， 以 
便 发 挥 最 高 的 性 能 。 


nl Riak 的 准备 与 启动 


下 面 介 绍 实际 搭建 网 站 的 步 妊 。Riak 运 
行 所 需 的 最 低 环 境 中 要 求 为 64 位 CPU、4GB 
RAM、 多 个 HDD、 高 速 网 络 。 虽 人 然 Basho 推 荐 
Riak 台数 最 少 为 5 台 , 但 这 边 为 了 便于 验证 操 
作 ， 只 以 3 台 (10.0.1.11，10.0.1.12，10.0.1.13 ) 
作为 例子 。 并 且 准 备 好 一 台 Nginx 的 机 需 
(10.0.1.10)。 此 处 谈 者 可 依据 目 身 的 环境 蔡 换 
为 其 他 配置 。 

截至 2013 年 4 月 Riak 的 最 新 版 本 号 为 1.3.1。 
如 果 是 Ubuntu Linux 12.04 或 者 APT 环 境 ， 可 
以 使 用 Basho 提供 的 apt-line 来 进行 安装 出 。 


(2 http://docs.basho.com/riak/latest/references/appendices/ 
Bitcask-Capacity-Planning/ 

(3) http//docs.basho.conyriak/1.3.1/tutorials/System-Planning/#Hardware 

由 http://docs.basho/riak/1.2.0/tutorials/installation/Installing-on- 
Debian-and-Ubuntu/ 
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其 构造 与 性 能 测试 结果 = 


$ sudo curl http://apt.basho.com/gpg/ 
basho.apt.key | sudo apt-key add - 
$ sudo bash -c "echo deb http://apt. 


basho.com $ (lsb_release -sc) main > 
/etc/apt/sources.1list.d/basho.1ist”" 

$ sudo apt-get update 

$ sudo apt-get install riak 


这 样 ，Riak 束 安装 好 了 。 如 果 在 不 能 访 
问 网 络 的 环境 下 使 用 的 话 ， 可 以 从 Basho 的 网 
站 下 载 ， 并 使 用 dpkg 命 令 进行 安装 。 


# sudo dpkg -1i riak_1.3.1-1.amd64.deb 


这 样 ， 这 合 服务 希 上 就 装 好 了 。 


Riak 在 大 多 环境 下 都 不 需要 优化 参数 (这 
里 所 指 的 是 为 了 获得 最 优 参数 不 断 地 进行 性 能 
测试 ,但 在 Linux 环 境 下 为 了 获得 最 佳 性 能 ， 
需要 变更 多 个 参数 )。 详 细 请 参见 参数 的 设 定 ”。 


# sudo dpkg -1i riak_1.3.1-1.amd64.deb 


接 下 来 ， 为 了 增 大 进程 能 打开 的 最 大 FD 数 
量 ， 需 要 对 /etc/security/limits.conf 进行 
编辑 。 


riak hard nprc 100000 
riak soft me 100000 


男 外 ， 因 为 会 影响 硬盘 的 VO 性 能 ， 内 核 
的 VO 调 度 器 需要 设置 为 deadline。sda 部 分 ， 
使 用 的 是 /etc/riak/app.config 中 设 定 的 数 
据 目 录 所 在 的 设备 。 


# Sudo echo deadline > /sys/pblock/sday/ 


queue/scheduler 
$ cat /sys/blok/sda/queue/scheduler 


根据 环境 需要 对 /etc/riak/app.config 


与 Jetc/riak/vim.args 进 行 设 定 。 需 要 设 定 为 


(©) http://docs.basho.com/riak/latest/downloads/。 
(6) http://docs.basho.com/riak/latest/cookbooks/Linux- 
Performance-Tuning/。 


接受 HTTP 请 求 要 绑 定 的 IP 地 址 和 Erlang 通 信 
库 需 要 使 用 到 的 IP 地 址 (默认 情况 下 会 已 设置 
为 127.0.0.1 的 本 地 回环 地 址 , 从 外 部 无 法 使 用 )。 

app.config 的 第 33 行 (riak core 区 块 的 http 
项 目 ) 可 以 设置 HTTP 的 IP, 将 其 设置 为 自己 
Riak 服 务 需 的 卫 地 址 。 


{me 下 OO 1 BO) J}, 


男 外 ， 数 据 目 录 原 来 应 是 /var/1ib/riak,， 
如 有 果 已 经 定 下 数据 用 的 分 区 路 径 ， 就 要 调整 这 
个 地 方 。 是 在 默认 bitcask 区 块 的 data_root 项 
目 外 。 

接 下 来 ， 设置 /etc/riak/vm.args。 


## Name of the riak node 
-name riak@10.0.1.11 
zl 


这 样 做 是 为 了 在 Erlang 的 通信 和 库 里 指明 
IP 地 址 。 第 二 个 +zdbbl1“ 是 Erlang/OPT 的 通 
信 库 的 发 送 队 列 的 大 小 (KB 单位 )， 默认 是 
1024 KB ， 最 大 可 设置 为 2 GB。 

通过 这 些 步 又 ,设置 已 基本 完成 ， 接 下 来 
在 所 有 服务 右上 启动 Riak 进 程 。 


[10.0.1.11] 
$ sudo riak start 


[10.0.1.12] 
$ sudo riak start 


[10.0.1.13] 
$ sudo riak start 


这 样 3 台 服务 右上 就 完成 了 启动 ， 但 其 相互 
识别 为 不 同 的 Riak 集 群 ， 所 以 需要 使 用 cluster 
命令 识别 为 同一 集群 。 从 思路 上 来 说 ， 在 图 1 
中 显示 的 一 台 服 务 器 10.0.1.11 的 集群 与 男 两 台 
汇合 成 了 一 个 集群 。 


(D http://docs.basho.com/riak/latest/cookbooks/faqs/logs- 
faq/#riak-logs-have-busy_dist port-messages。 
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[10.0.1.12] 
$ riak-admin cluster join riakQ10.0.1.11 


[10.0.1.13] 
$ riak-admin cluster join riakQ10.0.1.11 


[10.0.1.11] 
$ riak-admin cluster plan 
$ riak-admin cluster commit 


cluster plan 命 令 是 用 来 规划 vnode 数 据 
管理 单位 的 配置 命令 。 没 有 任何 数据 的 状态 
下 ， 最 初 构建 集群 时 ， 并 不 会 感觉 到 有 太 大 的 

要 性 , 但 在 积累 到 一 定数 据 无 法 停止 系统 时 ， 
用 来 控制 再 配置 时 束 很 有 用 了 。 执 行 cluster 
commit 的 话 ， 就 会 实施 plan 里 计划 的 再 构建 。 
具体 来 说 ， 随 着 时 间 的 转移 ， 会 实现 vnode 的 
转移 。 通 过 执行 以 下 命令 : 


$ riak-admin transfers 


这 样 就 可 以 观察 到 转移 的 具体 情况 。 如 


末 乔 望 调整 再 配置 的 速度 ， 就 通过 执行 如 下 
命令 : 


$ riak-admin transfer-limit 


$ riak-admin transfer-limit 1 


即 可 确认 和 调整 再 配置 的 市 


en transfer-limit 的 默认 值 为 a 


是 可 以 同时 连接 的 数量 (等 
ee 所 以 会 
成 为 整体 的 再 配置 所 需要 的 时 间 、 
网 络 市 宽 以 及 机 融 的 负 谷 之 间 相 
互 制约 的 结果 。 在 再 配置 的 过 程 
中 这 个 值 也 是 可 以 变更 的 ， 所 以 
可 以 边 观察 transfers 的 情况 及 
服务 六 的 人 猴 傈 边 进 行 值 的 调整 

这 样 ， 和 

且 顺 利 作 为 集群 运行 了 。 确 认 的 

方法 有 多 种 。 首 先 ， 使 用 Riak 的 
运用 命令 的 方法 如 下 : 


$ curl -X PUT http://10.0.1.11:8098/ 
buckets/spam/keys/ham -d 'egg’ 

$ curl http://10.0.1.12:8098/buckets/ 
Spam/keys/vhanm 

eg8 

$ curl -X DELETE http://10.0.1.13:8098/ 
buckets/spam/keys/vham 

$ curl http://10.0.1.11:8098/buckets/ 
Spam/keysVvhanm 

not found 


对 Bucket 名 为 spam、key 名 为 ham 的 记录 ， 
可 对 到 3 从 机 需 的 访问 进行 确认 。 


ey 初试 文件 的 上 传 


首先 ， 在 不 使 用 Nginx 的 情况 下 ， 上 传 样本 
图 片 (图 2)。 


$ curl -X PUT http://10.0.1.11:8098/ 
buckets/static/keys/Lenna. jpg  \ 
-H "Content-type: image/jpeg” 
--data-binary @Lenna.jpg 
$ gnome-open http://10.0.1.11:8098/ 
buckets/static/keys/Lenna. jpg 


V 图 2 因为 Riak 有 http 接 口 ， 所 以 可 以 使 用 浏览 器 确认 数据 


Lenna.jpg 400x400 pixels 


[| 6 localhost:8098/buckets/images/keys/Lenna.jpg 
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车 


如 果 使 用 非 snome 窗 口 管理 咒 ， 或 其 
OS， 可 以 用 浏览 絮 打 开 这 个 URL， 应 该 就 和 
确认 上 传 的 图 片 了 。 


CC 


NM Nginx 的 设置 


Riak 的 基本 功能 的 可 用 性 已 经 得 到 确认 ， 
接 下 来 进入 到 Nginx 的 设置 阶段 。 设 置 Nginx 
需要 完成 以 下 两 点 : 

1. 将 GET 的 请 求 平均 转发 给 Riak 集 群 。 

2. 拒 绝 PUT、POST 等 和 更 新 相关 的 请 求 。 

首先 在 10.0.1.10 的 机 右上 安装 Nginx。 


[10.0.1.10]j 


$ sudo apt-get install nginx 


为 了 设置 上 面 的 内 容 ， 编 辑 /etc/nginx/ 
site-enabled/default, 
首先 将 HttpUpstreamModule ”的 设 定 记述 
为 upstream backend， 即 可 指定 分 配 HTTP 请 
求 的 Riak 服 务 融 。 
upstream backend { 
server 10.0.1.11:8098; 
server 10.0.1.12:8098; 


server 10.0.1.13:8098; 
keepalive 4096; 


如 上 ， 将 中 地 址 和 端口 号 罗列 就 可 以 了 。 男 
外 ，keepalive 的 作用 是 ，W 愉 HTTP KeepAlive 
保持 4096 条 TCP 连 接 。 

接 下 来 , 将 GET 以 外 的 请 求 ， 都 设 定 为 不 可 
通过 ,通过 使 用 1imit_except “记述 到 server 


http://wiki.nginx.org/HttpUpstream Module 

(9) http://nginx.org/en/docs/http/ngx http upstream module. 
html#keepalive 

(0 http://wiki.nginx.org/HttpCoreModule#limit except 


其 构造 与 性 能 测试 结果 ， 


i 


区 块 。 告 网 站 的 FQDN 是 foo.example.com， 那 
束 这 样 配置 : 
server { 


listen € 80; 
server_name foo.example.com; 


location / { 
limit_except GET { 
deny all; 
J 
proxy_pass http://backend; 


上 述 的 意思 是 “监听 80 端 口 ”， 这 个 服务 需 
的 FQDN 是 foo.example， 接 受 方法 只 有 GET， 
加 proxy_pass 指 定 的 服务 表 通 过 负载 均衡 进 
行 传输 。 

这 样 ， 就 可 以 访问 http://foo.example.com/ 
buckets/static/keys/Lenna.jpg 所 指定 的 图 像 了 。 
实际 的 应 用 程序 中 , 会 更 宽松 地 进行 路 径 指 定 。 
如 果 需 要 在 Riak 的 Key 或 Bucket 中 包含 “/” 
字符 ， 可 以 在 Nginx 里 重 写 URL， 把 编码 后 的 
文字 作为 bucket 或 Key 的 名 字 就 可 以 了 。 


到 个 使 用 basho_bench 进行 压力 


角 ”测试 ， 增 加 服务 器 进行 扩展 


接 下 来 对 搭建 的 静态 服务 需 性 能 进行 实际 
评估 。 评 估 HTTP 服 务 需 性 能 ,使 用 ab (apache 
bench ) 比较 方便 ， 这 里 为 了 减少 们 盘 缓存 的 影 
啊 ， 最 好 对 图 片 进行 随机 访问 。 所 以 ， 这 次 主 
要 介绍 Basho 为 评估 Riak 性 能 所 开发 的 basho_ 
bench。 


办 准备 


首先 ， 向 Riak 上 传 100 万 张 图 片 作为 静态 
文件 样本 。 
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C2 


y 图 3 用 不 同名 字 上 传 1,048,576 个 相同 图 片 的 ruby 脚 本 


n = 1024 * 1024 

(0..n).each do |il| 
url = "http://10.0.1.11:8098/buckets/static/keys/#{i}.jpg” 
print "#{i}/#{n} th image to #{url}\n” 


print ‘curl -X PUT #{url} -H "content-type: image/jpeg” --data-binary @lenna.jpg. 


end 


0 同 的 图 片 ， 文 件 名 
使 用 目 动 命名 就 行 了 。 这 里 为 了 方便 basho 
bench 使 用 ,在 aa 的 是 连续 数字 的 文 
件 名 1.jpg，……: ，1048576.jpg。 图 片 的 大 小 
平均 为 25 KB, 复制 2 份 ， 总 计 75GB 的 文件 


被 上 传 到 集群 中 。 
我 们 准备 了 一 个 简单 的 脚本 来 上 传 文件 。 


其 实 什 么 语言 都 可 以 ， 这 里 挑选 
3 )。 

同时 ， 开 始 basho bench 的 准备 工作 。 我 
们 准备 了 另 一 合 服务 需 来 承担 负载 ， 并 安装 好 
Git 和 Erlang。 


了 Ruby( 见 


针 


$ git clone git://github.com/basho/ 
basho_bench.git 


$ cd basho_bench 


$ make 


这 样 就 生成 好 了 名 为 basho_bench 的 可 执 
行文 件 。basho bench 的 配置 文件 如 下 : 
{mode, max}. 
{duration, 30}. 
{concurrent, 64}. 


{driver, basho_bench_driver_http_raw}. 


{key_generator, {int_to_str, {uniform_int, 
1048576}}}. 


{le Pen tos, | OO, OR. 
{http_raw_prot, 80}. 

{http_raw_path, "/buckets/static/keys"}. 
{http_raw_params, ".jpg"}. 


{operations, [{get, 1}]}. 


这 里 不 对 每 个 项 目 都 详细 说 明 ， 只 要 理解 
以 下 内 容 即 可 ， 对 安装 了 Nginx 的 服务 名 ,使 


用 http://10.0.1.10/buckets/static/keys/{i}.jpg (i 
是 随机 从 1~1 048 576 中 挑选 出 来 的 ) 地 址 以 
64 的 并 发 ， 连 续 访问 30 分 钟 。 

还 有 ， 为 了 降低 读 取 负载 ， 把 读 取 访问 数 
设置 为 1。 夯 谈 取 和 写 和 经常 发 生 冲 突 也 可 以 
设 定 为 超过 半数 。 但 我 们 这 边 考 虑 的 访问 是 
Write once 、Read many， 所 以 没有 必要 这 样 做 。 


$ curl -X PUT http://10.0.1.11:8098/ 
buckets/static/props \ 


-H "content-type: application/json” 
=-d| ODS 人 


这 样 ， 就 在 名 为 static 的 bucket 里 设置 
了 了 r=1。 

实际 使 用 的 便 件 环 
拟 机 : 

。 Intel Xeon CPU ，2.40 GHz，4 核 

。 内 存 8 GB 

。 硬盘 数据 区 域 128 GB 


境 ， 为 如 下 配置 的 虚 


执行 basho_ bench 的 基准 测试 ， 只 要 执行 
如 下 脚本 : 


$ ./basho_bench httpraw.config 


如 果 要 马上 在 命令 行 上 显示 图 像 , 就 执行 


$ ./priv/gp_throughput.sh -t dumb 


$ ./priv/gp_latencies.sh -t dumb 


只 使 用 Riak 和 Nginx 搭 建 的 静态 文件 服务 器 | 


这 会 在 终端 上 用 文本 绘制 出 图 像 。 这 个 命 
令 在 没有 Xforward 的 服务 器 上 很 有 用 。 

这 次 评估 ,通过 在 2 到 8 台 Riak 之 间 进 行 
变化 ， 来 测定 相应 的 否 吐 量 和 延 运 。 可 以 想象 
的 是， 随 着 Riak 运 行 台 数 的 增加 ， 其 负 奋 也 能 
更 加 分 散 ， 否 吐 会 线性 上 升 ， 但 可 以 限制 在 一 
定数 值 下 。 同 时 ， 在 实际 超过 6 台 左 右 时 ， 每 
一 台 的 数据 量 将 低 于 物理 存储 量 ， 所 以 性 能 会 
更 好 。 


\ 结果 


首先 ， 从 厨 叶 量 来 看 ， 机 禹 数量 在 两 合 时 
是 700 qps，8 台 时 是 2700 qps， 表 明 随 着 机 器 
台数 的 增加 ， 否 吐 量 可 以 稳定 地 进行 扩展 ( 见 
图 4)。 

事实 上 ， 因 为 lenna.png 的 大 小 约 为 25 KB， 
所 以 basho bench 通 过 Nginx， 获 得 了 67.5 MB/s 
的 数据 。 


V 图 4 台数 变化 过 程 中 的 HTTP GET 的 吞吐 量 


3000 


500 


4 


其 构造 与 性 能 测试 结果 辐 1 


因为 是 静态 文件 ， 处 理 这 样 规 模 的 流量 
还 是 使 用 CDN (Contents Delivery Network) 比 
较 稳 葡 。 

图 5 也 表明 了 延迟 的 状况 。 不 同 台数 的 机 
侣 承担 相同 负 人 和信， 可 以 看 出 台数 少 的 时 候 ， 最 
长 延迟 情况 很 差 。8 台 的 时 候 ，99% 的 请 求 在 
400 ms 以 内 就 返回 了 。 或 者 说 ， 随 看 台数 的 增 
加 ， 和 延迟 和 生 叶 量 都 有 提升 ， 可 以 认为 负载 均 
衡 的 目的 已 经 达成 。 

另外 ， 在 实验 进行 过 程 中 ， 我 费心 于 调整 
Nginx,， 设置 KeepAlive, 设置 OS， 并 多 次 往 
集群 中 增加 Riak 服 务 絮 ,结果 测试 到 6 台 时 发 
现 错误 ， 再 次 从 两 合 开始 测试 。 这 样 的 操作 反 
反复 复 进 行 了 很 多 次 。 但 是 就 算 这 样 ，100 万 
个 文件 没有 丢失 过 ， 可 以 顺畅 地 进行 增加 、 其 
除 服务 右 的 操作 。 或 者 说 ，2、4、6、8 台 测试 
的 过 程 中 ，Riak 整个 系统 没有 一 次 集 止 过 。 这 
样 看 来 ， 相 信 大 家 也 能 明白 不 间断 地 运行 Riak 
是 多 么 地 容易 了。 


吞吐 量 ( qps ) 
一 全 DD 
Ol OO 
OO OO 
OO OO 
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机 器 台数 
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本 文 只 介绍 了 最 简单 的 方法 。 关 于 实际 
的 服务 Github pages 是 如 何 运 作 的 ,在 Erlang 
Factory 2012 上 Github 的 工程 师 Jesse Newland 
的 演讲 中 有 详细 说 明 。 实 际 上 ，Github pages 
的 静态 内 容 都 缓存 在 名 为 Fastty 的 CDN 上 (图 
6)。 并 且 ， 因 为 有 些 路 径 包 含 “/” 字符 ， 可 以 


使 用 Webmachine 架 设 一 个 人 简单 的 HTTP 服 务 
入， 把 路 径 和 Riak 的 数据 一 一 对 应 变换 ， 对 
静态 内 容 进 行 简 单 的 版 本 管理 。 

使 用 了 Riak，GitHub Pages 现在 可 以 维持 
者 快速 啊 应 的 同时 进行 扩展 。 


Nginx 上 也 有 标准 的 静态 文件 传送 功能 ， 


V 图 5 台数 变化 过 程 中 的 HTTP GET 的 延迟 


EE 
Ey VS 000 | 
RS | 


四 
“未 来 工房 ” / 
eg 


利用 这 项 功能 ， 会 十 分 方便 。 使 用 RAID 提高 
磁盘 的 可 靠 性 ， 再 加 上 一 定 的 缓存 功能 ， 也 可 
以 进行 高 速 的 静态 文件 传送 。 同 样 ， 把 NFS 上 
的 数据 mount 到 多 台 机 絮 上 ， 并 用 Apache 或 
Nginx 做 文件 服务 需 也 是 可 以 的 。 

或 者 ， 也 可 以 使 用 3 月 公开 的 OSS 版 Riak 
CS。 20 它 是 和 Amazon S3 兼 容 的 分 布 式 存储 方 
案 ， 由 于 后 端 使 用 了 Riak， 所 以 具有 了 与 Riak 
一 样 的 容错 性 ， 并 可 使 用 $3 相关 的 工具 。 它 
所 支持 的 最 大 对 象 可 以 达到 5TB。 


本 文 介绍 了 使 用 Riak 和 Neginx 搭 建 支持 横 


癌 扩 展 静 态 文 件 服务 上 冀 的 方法 。 因 为 使 用 了 
Riak， 数量 和 人 负载 两 方面 都 能 实现 扩展 和 分 


@D http://basho.co.jp/products/riakcs 
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图 6 ”Github Pages 使 用 Fastly 作 为 CDN 


$ dig basho.github.io 
… 省 略 … 

;; QUESTION SECTION : 
;basho.github .io. 


;; ANSWER SECTION : 


basho.githum. io. 3600 IN CNAME 


github.map.fastly.net. 30 IN A 


流 。 并 且 ， 可 以 利用 Riak 保 持 稳定 延迟 ， 利 
用 Nginx 的 简单 配置 实现 负载 均衡 。 

虽然 这 次 只 使 用 了 8 台 服 务 器 ， 但 还 是 有 
一 些 商 业 应 用 使 用 了 50 到 100 台 服务 器 ， 甚 至 
扩展 到 更 多 。 请 一 定 挑战 一 下 更 大 的 集群 。 还 有 ， 
这 次 数据 量 只 固定 到 了 25GB ， 随 着 服务 器 人 台 
数 的 增加 ， 总 的 数据 量 也 可 以 相应 增加 。 可 以 
根据 系统 需求 调整 便 盘 大 小 或 服务 器 台数 。 

Erlong/OTP 和 Riak 由 于 自身 设计 方面 的 
原因 ， 读 取 性 能 和 吞吐 并 不 太 高 。 但 在 实际 使 
用 中 ， 比 起 使 用 最 耗资 源 的 高 性 能 数据 库 和 
内 存 数据 库 ， 选 择 CDN 服务 商 提供 的 静态 文 
件 发 布 服务 ， 会 即 高 效 又 廉价 。 高 峰 时 的 读 
取 请 求 委 托 给 CDN， 自 己 保存 原始 数据 ， 应 
付 缓存 未 命中 时 所 使 用 的 数据 存储 Riak， 应 
该 也 相当 划算 。 


github.map.fastly.net. 


103.245.222.133 


虽然 现在 不 能 像 以 前 那样 ， 个 人 有 机 会 运 
营 文 本 、 图 片 的 网 站 ,但 当 突 然 有 数 百 万 个 文 
件 出 现在 眼前 时 ， 本 文摘 述 的 基本 思考 方法 能 
对 读者 有 所 带 助 的话 ， 那 就 再 好 不 过 了 了 。 
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POP OANA LN 
小 规模 工程 的 烦恼 


说 起 使 用 Jenkins 的 开发 环境 ,很 容易 让 
人 联想 到 大 规模 的 工程 。 杂 志和 网 站 上 介绍 的 
Jenkins 的 使 用 方法 ， 大 部 分 是 由 多 名 程序 员 
分 模块 开发 软件 ， 并 向 Subversion 或 Git 提 交 
代码 后 ， 将 单 体 测试 和 结合 测试 交 给 Jenkins。 
但 笔者 现在 使 用 的 环境 却 恰恰 相反 : 我 们 并 不 
需要 很 多 的 开发 人 员 ， 以 最 小 限度 编写 程序 ， 
将 更 多 的 时 间 用 在 制作 、 整 理 数据 上 。 

这 里 的 数据 是 指 影像 或 图 像 、 音 乐 或 效果 
音 以 及 消息 中 的 文字 ， 以 及 影像 文件 的 播放 方 
式 。 数 据 的 种 类 和 数量 都 很 多 ， 一 个 人 做 的 话 
恐怕 非常 困难 ， 并 且 会 耗费 大 量 的 时 间 。 简 单 
重复 的 操作 越 多 ， 耗 费 的 时 间 越 长 ， 不 小 心 犯 
错 的 可 能 性 也 随 之 提高 ， 因 此 就 需要 更 多 的 时 
间 来 检查 确认 。 面 对 如 此 繁琐 的 工作 ， 你 肯定 
希望 找到 一 种 代替 作业 的 方法 吧 。 

并 且 , 数据 的 制作 需要 大 量 的 重复 性 劳动 。 
制作 一 次 就 能 完成 的 数据 ， 铠 怕 在 测试 中 也 几 . 


小 规模 工程 学 习 
用 Jenkins 


第 畏 回 真 的 有 必要 用 程序 来 做 这 些 吗 ? 


你 听 说 过 Jenkins 吗 ? 可 能 有 人 听 说 过 它 的 前 身 Hudson。 包 括 Jenkins 的 主页 (Jenkins-ci.org ) 在 内 ， 网 
上 有 很 多 有 关 Jenkins 的 介绍 ， 但 是 仅 靠 参照 这 些 网 站 ， 想 在 自己 的 环境 中 方便 地 使 用 Jenkins ， 多 少 还 会 
些 问题 。 如 果 仪 靠 程序 的 帮助 ， 就 能 让 每 天 的 工作 变 得 简 


A 按部就班 真 的 可 行 吗 9 


让 


单 ， 是 多 么 美好 啊 ! 但 是 事实 往往 没有 这 人 么 简单 。 


文 / 岛 崎 聪 ( 株 )XVI Twitter @sato_c 译 / 阿 饮 


乎 从 来 没有 过 吧 。 考 虑 到 这 样 的 状况 ,我 们 希 
望 能 够 节省 运行 批 处 理 文件 或 者 从 命令 行 输入 
make 的 时 间 。 如 果 能 够 省 略 上 述 操作 ， 实 现 
完全 目 动 化 构筑 制作 数据 的 环境 ， 那 会 是 相当 
有 用 的 。 因 为 有 完备 的 环境 ， 接 下 来 的 数据 制 
作 工 作 就 能 交 给 电脑 来 完成 。 这 样 的 方式 ， 你 
认为 怎么 样 呢 ? 

笔者 以 程序 员 的 吴 份 参与 项 目的 开发 ， 同 
时 兼任 着 该 系统 环境 的 构建 和 管理 的 工作 (小 
规模 的 开发 中 ,由 程序 员 兼 任 此 类 工作 也 是 
很 常见 的 )， 因 此 考虑 使 用 Jenkins 来 实现 上 述 
机 制 。 


NDP LIA NS ALN 
这 样 的 情况 下 ， 你 会 怎么 做 呢 ? 


程序 开发 过 程 中 需要 少量 数据 时 ， 你 会 怎 
么 做 呢 ? 因为 是 很 少量 的 数据 ， 一 般 会 由 程序 
员 用 文本 编辑 希 手 动 输入 ,不 用 文本 编辑 融 
的 话 就 是 用 Excel， 一 般 不 都 是 这 样 吗 ? 其 实 ， 
这 是 一 个 不 好 的 开始 ， 随 看 开发 过 程 的 深入 ， 


"0 Ue OR ONO NO A OA OR OO OR NOR AO 


第 国 回 真 的 有 必要 用 程序 来 做 这 些 吗 ? 


会 还 渐变 成 依 徘 手 工 制作 数据 。 并 且 如 果 在 部 
车 到 正式 环境 的 过 程 中 ， 还 是 这 样 做 的 话 ， 很 
容易 造成 数据 的 不 整合 ， 引 起 各 种 问题 。 制 作 
数据 的 程序 员 如 末 不 能 随机 应 变 ， 提 高 制作 数 
据 的 效率 ， 那 么 也 会 非 第 辛 否 。 

你 可 能 会 想到 “用 批 处 理 文件 来 处 理 就 好 
了 ”或 者 “用 脚本 实现 上 自动 运行 就 好 了 ”。 的 
确 ， 开 发 人 员 最 初 会 认为 日 己 拥有 一 个 完美 的 
开发 环境 ， 事实 上 ， 这 很 难 实现 。 笔 者 之 前 的 
工作 中 就 遇 到 过 这 样 的 情况 : 完全 不 需要 手动 
干预 的 批 处 理 文件 中 ， 用 call 的 形式 调用 了 其 
他 的 批 处 理 文件 ， 这 些 被 调用 的 批 处 理 ， 将 计 
算 绪 采写 人 到 环境 变量 中 来 传递 。 结 果 就 像 函 
数 调用 一 样 地 使 用 结构 化 的 批 处 理 文件 。 如 来 
顺利 ,这样 的 方法 会 很 有 效 。 一 旦 出 现 了 问题 ， 
会 导致 除了 批 处 理 文件 制作 者 之 外 ， 别 人 很 难 
理解 ， 之 后 的 数据 制作 和 批 处 理 文件 的 维护 都 
非常 麻烦 。 

因此 ， 批 处 理 文件 逐渐 被 易于 理解 的 脚本 
所 取代 ， 其 实 如 果 可 以 一 开始 就 用 脚本 语言 3 
编写 的 话 就 更 好 了 。 并 且 脚 本 的 运行 也 更 加 快 
速 ， 能 很 大 程度 地 改善 开发 环境 。 也 可 以 通过 
修改 数据 结构 和 式样 等 ， 来 使 数据 维护 工作 变 
得 人 简单。 这样 在 测试 结束 后 ， 部 团 到 正式 的 运 
行 环 境 时 也 会 更 加 方便 。 


(DB 共同 开发 中 的 差 等 思 


笔者 闸 听 到 里 边 的 设计 师 说 :“ 我 只 是 夯 
画 的 ， 之 后 如 何 使 用 图 片 我 不 知道 ， 你 来 弄 一 
下 。” 的 确 ， 从头 开 始 学 习 图 片 数 据 的 加 工 处 
理 确实 非常 困难 。 对 方 没 有 理解 时 ， 需 要 反复 
地 对 处 理 步骤 从 头 进 行 说 明 ， 这 对 双方 来 说 都 


是 一 种 负担 。 说 明 的 一 方 会 觉得 这 是 在 浪费 大 
家 的 宝贵 时 间 ， 逐 产 会 党 得 这 种 事情 与 日 己 无 
关 ， 于 是 事 不 关 已 高 高 挂 起 。 诸 如 此 类 的 烦恼 ， 
在 项 目的 后 半 程 尤为 突出 。 

并 且 管 理 方面 也 开始 出 现 问题 ， 例 如 : 重 
要 画面 中 遗漏 了 图 瞩 、 图 片 或 影像 的 版 本 陈旧 、 
图 上 厂 的 编 解 码 有 问题 等 。 诸 如 此 类 的 问题 在 项 
目 渐 和 佳境 的 同时 开始 逐渐 显现 。 修 复 问 题 时 ， 
数据 管理 的 负担 会 越 来 越 重 ， 变 成 了 相当 杯 手 


的 问题 。 


(D 用 Jenkins 来 解决 吧 | 


本 连载 将 介绍 通过 导入 Jenkins 来 解决 上 
面 描 述 的 种 种 困 局 ， 当 然 文 中 可 能 夹杂 着 笔者 
对 自己 所 处 状况 的 种 种 感想 。 

因为 介绍 的 是 根据 笔者 自 号 所 处 状况 来 使 
用 Jenkins， 所 以 可 能 和 Jenkins 入 门 之 类 的 文 
章 相 去 甚 远 ， 而 且 ，Jenkins 的 使 用 方法 本 来 
就 应 该 是 多 样 化 的 。 笔 者 要 写 的 东西 总 结 如 下 : 
提高 小 规模 工程 的 开发 效率 ， 及 Jenkins 的 相 
天 使 用 方法 


人 NE 
在 这 样 的 环境 下 工作 


笔者 现在 从 事 的 是 娱乐 系统 的 开发 ， 这 和 套 
娱乐 系统 简单 地 说 ， 就 是 根据 用 户 的 输入 播放 
相应 视频 。 笔 者 作为 程序 员 参 与 此 项 目的 开发 ， 
除 笔者 之 外 ， 还 有 设计 师 数 名 、 企 划 人 员 、 项 
日 管理 人 员 (图 1)， 开 发 团队 最 多 10 人 左右 。 
影像 、 首 乐 和 声 首 系 材 是 癌 专 门 的 公司 购买 后 
再 进行 编辑 的 ， 和 暂时 不 自行 制作 数据 。 

设计 师 的 工作 是 设计 画面 和 编辑 音像 资料 。 


WE 按部就班 真 的 可 行 吗 ? 


了 图 1 项 目的 职责 分 配 


策 ” 划 


整体 的 策划 
组 织 策划 
( 影像 、 合 词 、 声 音 等 ) 


勇 辑 


影像 设计 师 
编辑 影像 资料 
消息 、 字幕 和 图 像 等 


他 们 对 于 编辑 音像 和 画像 的 环境 、 工 具 等 相当 
了 解 ， 但 在 程序 方面 知之 甚 少 。 几 年 前 ， 他 们 
之 中 可 能 有 人 只 知道 如 何 启动 、 关 闭 电 脑 以 及 
Photoshop 的 使 用 方法 。 最 近 ， 随 着 电脑 的 操 
作 简 易 化 ， 工 作 以 外 使 用 电脑 的 频率 增加 ， 只 
会 开机 关机 的 人 已 经 很 少 了 。 但 还 是 有 很 多 人 
不 知道 如 何 将 日 己 制作 的 音像 数据 转换 成 程序 
能 够 使 用 的 数据 ， 能 够 独 日 完成 数据 制作 、 转 
换 的 人 很 少 (虽然 不 是 完全 没有 )。 

末 划 的 主要 工作 是 考虑 产品 的 内 容 ， 在 诸 
多 限制 下 尽 可 能 地 将 内 容 设 计 得 有 趣 ， 这 是 胜 
负 的 关键 。 所 以 策划 一 般 不 会 考虑 细节 问题 ， 
而 会 将 注意 力 集中 在 目 己 的 策划 工作 上 。 

项 目 管理 者 ， 顾 名 思 义 ， 主 要 工作 就 是 把 
挖 项 目的 进度 。 他 脑 中 考虑 的 是 如 何在 规定 期 
限 内 使 开发 顺利 运转 并 完成 项 目 。 

开发 束 是 将 各 种 人 集合 到 一 起 ， 将 他 们 的 
工作 关联 起 来 。 所 以 他 们 相互 是 否 能 够 顺利 地 
交流 、 协 作 ， 是 需要 注意 的 地 方 。 


从 小 规模 工程 学 习 活 用 Jenkins 


这 绎 事 都 由 程序 员 来 做 ， 电 不 是 
负担 很 重 ? 

酉 处 这 样 的 开发 环境 下 ， 与 设计 师 间 交流 
沟通 的 程度 与 深度 ， 和 需要 事先 和 设计 师 进 行 说 
明 并 取得 理解 。 策 划 会 时 不 时 地 要 求 “ 想 看 一 
下 现在 产品 的 内 容 ， 要 怎么 做 好 呢 "， 这 时 需 
要 将 当前 的 产品 、 数 据 呈 现 给 他 看 。 同 事 的 开 
发 环境 和 目 己 在 用 的 环境 不 尽 相 同时 (事实 上 
也 不 可 能 完全 相同 )， 必 须 设法 解决 ， 比 如 将 
那个 人 专用 的 程序 或 者 Excel 的 宏 打 包 发 送 过 
去 等 。 

因此 可 以 这 么 说 ， 当 设计 师 和 策划 摊 开 双 
手 说 “我 不 知道 怎么 处 理 ” 的 时 候 ， 都 必须 由 
程序 员 代 为 处 理 。 那 程序 员 还 有 做 自己 工作 的 
时 间 吗 ? 等 到 有 时 间 做 目 己 工作 时 候 已 经 是 傍 
晚 以 后 了 。“ 啊 , 今天 又 要 乘 末 班车 回 家 了 1” 
相信 经 历 过 这 样 的 恶性 循环 的 人 不 在 少数 。 笔 
者 就 能 拍 着 胸 脐 说 “我 经 历 过 很 多 次 !”， 因 此 
希望 能 有 所 改变 。 


(用 数据 库 来 共享 信息 


即使 是 少数 人 参与 的 开发 环境 ， 为 了 顺利 
地 推进 开发 也 需要 制定 一 些 规 则 。 笔 者 的 公司 
就 有 这 样 的 规则 : 

“无 论 什么 样 的 情况 ， 都 要 先 把 数据 保存 
到 数据 库 (以 后 简称 DB) 中 。” 

以 下 简称 为 “DB 保存 规则 ”( 图 2)。 

图 像 和 影像 数据 并 不 保存 在 DB 中 ， 而 是 
通过 Subversion 来 管理 。 但 是 其 文件 名 等 信息 
会 保存 在 DB 中 进行 管理 。 并 且 如 果 将 数据 的 
状态 即 未 着 手 、 制 作 中 、 完 成 等 几 种 状态 一 起 
保存 的 话 , 非 数据 制作 人 也 能 了 解 当前 的 状况 。 


"0 NU OD NOR US OR OP OR OO 0 OR OR A 


第 国 回 真 的 有 必要 用 程序 来 做 这 些 吗 ? 


有 图 2 DB 保存 规则 


DB 保存 规则 
将 所 有 能 保存 的 信息 都 保存 在 DB 中 


1. 演出 内 容 
2. 影像 名 
3. 人 台词 


4. 声音 数据 


5. 各 类 消息 

6. 数值 数据 

7. 影像 数据 的 播放 形式 

8. 影像 、 图 片 、 声 音 的 文件 名 以 及 标示 名 
9. 各 种 数据 的 制作 状态 

X. 其 他 任意 想到 的 内 容 


也 可 以 使 用 Excel 来 确认 和 保存 数据 。 在 
开发 通过 使 用 普及 程度 较 高 的 Excel， 使 不 太 
使 用 电脑 的 人 员 也 能 较 好 地 理解 。 在 工作 表 中 
准备 好 提交 数据 用 的 “发 送 ” 按 键 , 并 注 明 “ 数 
据 编 辑 完成 后 按 此 键 提交 ”， 这 上 比 起 长 篇 昧 号 
地 说 明 操作 的 细节 ， 不 是 更 好 吗 ? 

具体 来 说 ，Excel 通 过 ODBC 和 DB 相连 
接 。 虽 然 如 此 ， 为 了 避免 修改 Excel 时 ， 导 致 
DB 中 的 数据 被 频 索 地 修改 ， 一 般 会 另行 制作 
脚本 来 提交 数据 。 

通过 与 DB 间 的 这 种 便利 数据 交互 ， 大 家 
都 可 以 通过 Excel 来 确认 数据 的 状态 了 。 策 划 
和 管理 者 想 知道 某 段 影像 是 否 制 作 完成 ， 通 过 
Excel 就 能 方便 地 确认 。 实 际 工作 中 可 能 还 是 
要 直接 询问 具体 的 负责 人 ， 但 是 在 询问 之 前 预 
先 查 看 一 下 DB 中 收录 的 数据 的 话 ， 束 能 对 进 
度 有 大 致 了 解 。 通 过 确认 数据 还 能 得 知 设计 师 
是 否 忘 记 提交 数据 。 通 过 多 人 次 的 确认 来 确保 
没有 数据 遗漏 ， 以 此 改善 项 目的 品质 ， 提 高 开 
发 效率 。 

关于 开篇 提 到 的 制作 测试 数据 ， 因 为 所 需 


的 数据 已 经 整理 并 存储 在 DB 中， 所 以 一 旦 需 
要 的 时 候 ， 就 可 以 非常 方便 地 使 用 了 。 例 如 ， 
将 播放 影像 时 需要 的 视频 和 图 片 列 表 航 和 人 到 程 
序 中 ， 只 需要 用 SQL 语句 从 DB 中 筛选 出 数据 ， 
转换 成 代码 文件 的 形式 并 保存 就 行 了 。 并 且 通 
过 制作 脚本 ， 数 据 更 新 后 只 要 运行 脚本 就 能 后 
步 更 新 代码 文件 。 更 进一步 ， 如 果 每 次 数据 更 
新 时 ， 可 以 省 略 手动 去 运行 脚本 的 话 ， 那 效率 
不 就 更 高 了 ? 


(D 使 用 Skypebot 自 动 处 理 


除了 DB 保存 规则 以 外 ,公司 内 部 一 直 使 
用 一 天 通过 接受 Skype 命 令 进行 作业 的 优秀 工 
具 一 一 Skypebot。 什 么 是 Skypebot? Skypebot 
常 驻 于 IRC 的 特定 频道 中 ， 通 过 分 析 接 收 到 的 
文字 信和 号 进行 自动 作业 ， 并 且 是 由 Skype 驱 动 
的 ， 所 以 命名 为 Skypebot。 使 用 Skype 聊 天 工 
具 回 运行 有 Skypebot 的 电脑 发 送 文本 指令 ， 就 
能 驱动 电脑 作业 (图 3)。 

Skypebot 如 图 4 所 示 进 行 处 理工 作 。 

虽然 Skypebot 使 用 方便 ,但 还 是 多 少 有 一 


有 图 3 Skypebot 的 使 用 方法 


GD Open Database Connectivity， 开 放 数 据 库 连 接 。 


设计 师 通过 Skype 向 运行 有 Skypebot 的 电脑 发 送 命 
令 ， 那 台电 脑 就 会 解析 命令 并 处 理 。 


运行 有 Skypebot 
的 电脑 


/ 转换 影像 的 视频 格式 > 
© /> 


WE > 按部就班 真 的 可 行 吗 ?9 
些 问题 。 要 向 Skypebot 的 处 理 中 增加 新 功能 时 ， 
就 洁 要 改动 bot 病 调用 的 程序 或 脚本 。 在 既定 
处 理 流程 中 插入 额外 处 理 的 话 ， 会 造成 大 规 村 
修改 。 因 为 是 日 第 使 用 的 工具 ， 一旦 修改 可 能 
造成 很 多 奇怪 的 问题 ， 还 是 比较 芳心 费 神 的 。 


PIE NAA NA KD NA 
Jenkins 导入 研究 

Jenkins 是 持续 集成 工具 ， 可 能 你 还 是 无 法 
理解 ， 再 简单 点 说 就 是 能 够 做 到 “自动 化 测试 ， 
并 统计 结果 "， 或 者 “根据 需要 部 署 编译 结 
文件 ”， 再 或 者 “自动 制作 数据 ”。 笔 者 想 做 的 
是 尝试 用 Jenkins 来 替换 Skypebot。 

公司 内 大 家 对 Jenkins 都 有 所 耳闻 ,但 是 
在 已 经 有 Skypebot 的 情况 下 ， 导 入 Jenkins 的 
目的 是 什么 ， 有 什么 作用 ? 导入 Jenkins 的 费 
用 以 及 其 对 应 的 效果 , 在 现在 的 情况 下 难以 
估计 。Skypebot 现 在 也 工作 得 很 好 ， 节 省 了 大 
家 很 多 的 工作 量 。 程 序 员 不 必 每 次 都 进行 说 
明 ， 只 要 记 住 “用 Skype 发 送 命令 ”这 一 步骤 
就 可 以 了 ， 即 员工 的 培训 成 本 很 低 ， 这 也 是 
Skypebot 的 魅力 之 一 。 


有 图 4 Skypebot 的 处 理 内 容 


从 小 规模 工程 学 习 活 用 Jenkins 


即便 如 此 ， 笔 者 还 是 决定 蔡 换 成 Jenkins， 
除了 之 前 提 到 的 Skypebot 存 在 的 问题 之 外 ， 还 
因为 笔者 以 前 的 公司 曾 利 用 数 台 Jenkins， 从 服 
务 需 和 同一 楼 层 内 数 十 台电 脑 ， 搭 建 分 布 式 编 
译 环境 ,通过 实际 大 规模 运用 和 管理 Jenkins 
环境 ， 笔 者 学 到 并 理解 了 很 多 Jenkins 的 用 法 。 
虽然 现在 开发 的 规模 变 小 了 ， 但 是 笔者 所 做 的 
和 想 做 的 事情 并 没有 改变 。 男 外 从 公司 角度 来 
说 ， 导 入 Jenkins 是 在 现 有 基础 上 ， 进一步 探 
索 提高 开发 效率 的 大 好 机 会 。 

笔者 对 于 现 有 业务 如 何 使 用 Jenkins 考虑 了 
很 久 , 决定 先 从 Jenkins 的 导 和 工作 和 人手 ， 导 入 
之 后 再 研究 如 何 将 实际 的 开发 工作 和 Jenkins 联 
系 起 来 。 终 端 用户 保 持原 有 的 操作 方法 ， 并 从 中 
找 出 能 够 改进 之 处 ， 在 开发 人 员 的 帮助 下 ， 通 过 
实际 的 开发 作业 将 Jenkins 的 使 用 方式 具体 化 。 


一 旦 导入 Jenkins， 普 通 的 办 法 
可 能 行 不 通 

如 人 和 何 用 Jenkins 替换 Skypebot?7 首先 运 

行 “ 将 大 量 影像 数据 合并 成 一 个 文件 ”的 工 

具 ， 新 建 一 个 名 为 DATA Compile 的 Jenkins 的 


1. 减 色 


2. 编码 处 理 


组 成 视频 


3. 数据 合并 


将 Skypebot 用 文件 夹 中 的 数据 文件 进行 减 色 处 理 后 提交 
对 图 像 数 据 进行 减 色 处 理 [一 > 处 理 后 的 数据 提交 


将 Skypebot 用 文件 夹 中 的 图 像 ， 以 文件 夹 为 单位 分 别 进行 编码 


将 仓库 中 的 数据 合并 成 一 个 文件 


从 仓库 中 获取 数据 [一 > 合并 成 一 个 文件 后 保存 


~ OR OO AO A OA OR OO OR NOR AO 


第 国 回 真 的 有 必要 用 程序 来 做 这 些 吗 ? 


JOB,，DATA Compile 将 工具 做 成 的 数据 文件 
作为 JOB 的 输出 并 保存 ， 并 且 将 合并 数据 过 程 
中 由 工具 生成 的 配置 文件 转换 成 其 他 格式 后 提 
交 到 Subversion 的 仓库 中 (图 5)。 

总 的 来 说 ，DATA Compile JOB 的 制作 相 
当 麻 烦 。 主 要 是 Windows 环 境 的 硬件 提供 商 没 
有 提供 命令 行 版 本 的 工具 。 可 能 是 因为 GUI 的 
工具 使 用 起 来 比较 方便 , 命令 行 工 具 非 常 少 见 ， 
因此 只 能 让 Jenkins 调 用 GUI 的 工具 。 经 过 了 
多 次 尝试 、 失 败 之 后 ， 总 算 搭建 起 了 能 够 运行 
的 环境 。 笔 者 会 将 在 下 回 连载 中 ， 介 绍 这 些 问 
题 是 如 何 解决 的 。 

刚 解决 一 个 问题 ， 其 他 问题 又 接二连三 地 
出 现 。 配 置 文件 格式 转换 完成 后 就 是 提交 文件 
了 ， 这 一 步 也 相当 麻烦 。 在 原始 文件 基础 上 进 
行 更 新 还 算 简 单 ， 之 后 只 要 提交 就 能 将 更 新 后 
的 文件 保存 到 仓库 中 。 但 是 如 果 更 新 的 时 间 不 
凑巧 就 容易 产生 提交 冲突 ， 这 时 候 就 只 能 手动 
作业 了 : 将 手头 的 文件 和 仓库 中 的 文件 对 比 合 
并 后 再 提交 。 这 是 多 人 共同 开发 环境 下 ， 时 不 


有 图 5 转移 至 Jenkins 的 DATA_Compile 工作 流程 


运行 工具 ， 将 数据 合并 到 一 个 文件 中 


将 文件 中 的 配置 信息 
转换 成 程序 能 够 使 用 的 格式 


提交 转换 后 的 配置 信息 


※ 上 述 处 理 流 程 在 1 个 JOB 中 执行 


时 会 发 生 的 情况 ,虽然 维 护 起 来 比较 麻烦 ,但 
也 没有 办 法 。 

你 可 能 会 问 新 建 的 文件 要 怎么 处 理 。 的 确 ， 
新 建文 件 的 时 候 ， 必 须 先 添 加 到 仓库 后 再 提交 。 
提交 的 时 候 自 动 添加 文件 不 是 更 方便 吗 ? 这 样 
就 有 可 能 将 不 需要 的 文件 错误 地 保存 到 仓库 中 。 
解决 方法 是 通过 制作 脚本 ， 提 交 前 检查 仓库 中 
是 否 存 在 该 文件 ， 没 有 的 话 添加 后 再 提交 。 提 
交 的 问题 总 算 解 决 了 ， 其 他 细小 的 问题 又 相继 
出 现 。 现 在 使 用 的 环境 就 是 在 这 样 逐 渐 解 决 问 
题 的 过 程 中 搭建 起 来 的 。 

环境 构建 好 之 后 ,使 用 初期 可 能 会 有 各 
种 明显 的 BUG。 这 是 无 法 避免 的 ， 只 有 通过 
不 断 及 时 地 修正 使 环境 趋 于 稳定 。 运 行 几 裔 
JOB， 简 单 的 BUG 很 快 就 能 修正 。 所 以 要 在 
周围 同事 的 帮助 下 反复 进行 修正 和 测试 。 这 样 
Jenkins 的 环境 差不多 就 搭建 完了 ,项 目 也 随 
之 渐 入 佳境 。 这 时 再 出 现 问题 的 话 可 以 通过 添 
加 处 理 脚本 、 拆 分 JOB 等 方式 迅速 处 理 。 


(有 JOB 相关 


在 介绍 使 用 Jenkins 的 事例 之 前 ， 预 先 说 
明 一 下 基本 的 JOB 相关 的 操作 。 做 好 的 JOB 添 
加 到 Jenkins 后 如 图 6 所 示 , 在 Jenkins 的 主 画 
面 (Dashboard) 中 以 列表 的 形式 排列 。JOB 名 
左 侧 的 “S” 列 ， 用 图 标的 形式 表示 着 最 近 一 
次 运行 的 结果 : 运行 失败 的 话 就 显示 为 红色 的 
圆 点 。 圆 点 右 侧 的 “W” 列 用 气象 图 标的 形式 
表示 了 最 近 一 段 时 间 JOB 的 状态 ， 
败 后 就 显示 要 变 天 的 气象 图 标 了 。 

单个 JOB 或 者 是 多 个 JOB 串联 都 能 够 正常 
运行 。 你 可 能 会 考虑 用 1 个 JOB 来 完成 所 有 的 
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处 理 , 但 笔者 推荐 用 多 个 JOB 串联 ， 每 个 JOB 
实现 一 个 功能 。 因 为 用 单个 JOB 来 执行 所 有 处 
理 ， 如 果 中 途 处 理 失败 的 话 ， 那 么 从 开始 到 失 
败 时 间 点 的 时 间 就 都 浪费 了 。 有 具体 来 说 ， 例 如 
整体 的 处 理 流程 是 编译 程序 一 整理 数据 一 将 程 
序 和 数据 合并 并 压缩 成 zip 文 件 一 将 zip 文 件 上 
传 至 ftp， 如 果 在 最 后 一 环 上 传 至 ftp 时 ， 由 于 
ftp 服务 器 问题 导致 上 传 失 败 ， 事 实 上 只 需要 
重新 上 传 即 可 ， 但 大 是 单个 JOB 的 话 只 能 从 头 
开始 重新 执行 。 只 需要 修正 脚本 就 可 以 了 吗 ? 
如 果 忘 记 将 失败 的 状态 还 原 ， 可 能 会 出 现 旧 文 
件 堆积 或 将 旧 文 件 上 传 至 服务 器 等 各 类 问题 。 
另外 根据 切 分 方式 的 不 同 ， 整 体 实现 的 难 易 程 
度 也 会 随 之 变化 。 

在 导 和 人 Jenkins 之 前 ， 把 指令 发 送 给 Skypebot 
后 ， 需 要 根据 Skype 的 输出 结果 进行 下 一 步 处 
理 。 使 用 Jenkins 后 ， 串 联 的 JOB 会 依次 执行 ， 
所 以 就 不 必 留 意 中 间 状态 和 结果 。 中 途 出 现 错 
误 的 话 确认 问题 点 , 重新 执行 失败 的 JOB 即 可 。 
不 必 一 直 盯 着 Skype 看 ， 这 就 大 大 减少 了 精神 
卡 的 负 扯 。 


Jenkins 不 仅 可 以 根据 上 一 个 JOB 的 运行 
结果 启动 不 同 的 JOB 进行 后 续 处 理 ， 而 且 还 可 
以 设 定 在 处 理 失 败 时 发 送 通知 邮件 ， 使 用 免费 
的 插件 来 解析 log 内 容 并 进行 相应 的 处 理 ， 分 
析 数 据 自 动 绘制 图 表 等 。 这 部 分 的 内 容 将 在 以 
后 的 连载 中 给 大 家 介绍 。 


Ne 
本 回 总 结 


以 上 大 致 介绍 了 作为 本 期 连载 涉及 的 开发 
环境 以 及 Jenkins 的 相关 用 法 。 在 JOB 的 制作 
和 关联 方面 ， 日 常 的 工作 中 ， 还 需要 根据 实际 
情况 进行 修改 。 如 何 细 分 处 理 ， 如 何 将 JOB 串 
联运 行 ， 这 些 都 会 影响 到 处 理 的 速度 。 要 彻底 
和 有 清楚 这 些 ， 需 要 一 定 的 努力 。 

笔者 还 要 了 曙 嗪 一 届 ， 如 果 在 处 理 的 一 开始 
就 出 现 错误 ， 那么 多 个 JOB 和 单个 JOB 可 能 没 
有 太 大 的 区 别 。 实 际 上 所 有 处 理 放 在 单个 JOB 
中 ， 这 样 等 待 的 时 间 将 会 很 长 。 一 旦 JOB 失败 
造成 时 间 浪 费 ， 会 产生 很 强 的 挫败 感 。 因 此 在 
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第 国 回 真 的 有 必要 用 程序 来 做 这 些 吗 ? 


项 目的 前 半 程 , 应 该 趁 开 发 之 外 还 有 剩余 时 间 ， 
多 设计 一 些 实验 用 JOB ， 并 进行 反复 试验 。 怎 
么 做 是 可 行 的， 怎么 做 是 不 可 行 的 ， 只 有 在 反 
复 的 答 试 一 失败 一 符 试 的 过 程 中 去 摸索 和 积累 。 
因为 无 法 预料 什么 时 候 会 出 现 问题 ， 所 以 要 做 
好 应 对 困难 的 思想 准备 。 

还 有 ， 笔 者 所 在 的 娱乐 系统 开发 环境 中 ， 
大 家 还 不 习惯 使 用 DB。 不 习惯 的 原因 多 半 是 
“ 太 难 了 ”“ 跟 我 没有 关系 ”等 。 但 是 数据 的 
统一 化 管理 能 够 大 大 缩短 工作 时 间 、 减 少 工 
作 量 。 

像 Jenkins 这 样 目 动 化 的 工具 让 人 觉得 很 
不 可 思议 ， 所 以 经 常 听 到 这 样 的 质疑 :“ 这 样 


做 出 来 的 东西 可 信 吗 ?” 但 是 对 于 程序 员 来 说 ， 


比 起 单调 的 数据 制作 ， 让 机 器 来 制作 数据 ， 以 
此 确保 自己 有 更 多 的 时 间 来 编写 程序 不 是 更 好 
吗 ? 综合 考虑 程序 员 自 身 的 工作 量 和 时 间 ， 使 
用 Jenkins 切 实 能 够 为 我 们 万 得 更 多 时 间 来 从 
事 别 的 工作 。 

即便 是 使 用 DB 统一 管理 数据 、 使 用 
Jenkins 实现 目 动 化 , 在 项 目的 最 后 阶段 还 是 
难免 需要 加 班 ， 但 是 没有 出 现 被 迫 周 末 来 加 班 
的 情况 。 即 使 有 一 些 额外 想 做 的 事情 ， 也 不 需 
要 周末 加 班 。 托 Jenkins 的 福 ， 大 家 时 间 上 宽 
裕 了 很 多 。 

本 期 和 大 家 探讨 了 将 Jenkins 引 入 笔者 的 
开发 环境 的 有 关 话 题 。 从 下 期 开始 ， 我 将 介绍 
搭建 环境 中 使 用 到 的 工具 和 脚本 等 。 
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“本 书 介绍 了 大 量 实际 应 用 领域 的 基本 概念 和 做 法 ， 它 是 程序 员 笔 记 的 精华 摘要 ， 
经 过 破译 和 编辑 ， 并 有 机 地 组 织 在 了 一 起 。” 


极 负 盛名 的 Linux 程 序 设计 图 书 


一 一 Alan Cox，Linux 内 核 维 护 者 


时 至 今日 ，Linux 系 统 已 经 从 一 个 个 人 作品 发 展 为 可 以 用 于 各 种 关键 任务 的 成 熟 、 
高 效 和 稳定 的 操作 系统 ， 因 为 具备 跨 平 侣 、 开 源 、 支 持 众多 应 用 软件 和 网 络 协议 
等 优点 ， 它 得 到 了 各 大 主流 软 人 硬件 厂商 的 支持 ， 也 成 为 广大 程序 设计 人 员 理 想 的 


本 书 是 Linux 程 序 设计 领 域 的 经 典 名 著 ， 以 简单 易 懂 、 内 容 全 面 和 示例 丰富 而 受到 
广泛 好 评 。 中 文 版 前 两 版 出 版 后 ， 在 国内 的 Linux 爱 好 者 和 程序 员 中 也 引起 了 强烈 
反 啊 ， 这 一 热潮 一 直 持续 至 今 。 本 书 是 国内 读者 甬 首 以 符 的 第 4 版 ， 此 次 新 版 内 


容 组 织 更 加 严谨 ， 译 者 更 是 细心 雕琢 ， 保 留 了 这 部 权威 著作 的 原 汁 原味 。 
对 Linux 所 提供 的 功能 全 面 而 准确 的 阐述 , 以 及 贯穿 全 书 的 示例 程序 体验 , 使 本 书 不 仅 成 为 初学 者 的 最 佳 Linux 程 序 设 计 指 南 ， 


而 且 是 中 高 级 程序 员 不 可 或 缺 的 参考 书 。 


本 书 讲述 了 Linux 系统 及 其 他 UNIX 风格 的 操作 系统 上 的 程序 开发 ， 主 要 内 容 包 括 标准 Linux C 语言 函数 库 和 由 不 同 的 Linux 
或 UNIX 标准 指定 的 各 种 工具 的 使 用 方法 ， 大 多 数 标 准 Linux 开发 工具 的 使 用 方法 ,通过 DBM 和 MySQL 数据 库 系 统 存储 
Linux 中 的 数据 ， 为 X 视窗 系统 建立 图 形 化 用 户 界 面 等 。 本 书 通过 先 介绍 程序 设计 理论 ， 再 以 适当 的 例子 和 清晰 的 解释 来 


阐明 它 的 方式 ， 带 助 读者 迅速 掌握 相关 的 知识 。 


本 书 适合 Linux 的 初学 者 及 希望 利用 Linux 进行 开发 的 程序 人 员 阅 读 ， 也 适合 作为 高 等 院 校 计算 机 相关 专业 师 生 的 参考 教材 。 


安全 实践 鬼 手 决 
密码 的 重新 思考 


围棋 的 初学 者 都 是 先 学 习 基 本 的 定式 (固定 的 下 法 )， 然 后 根据 不 同 的 局 势 情况 灵活 地 应 用 这 些 定 式 ， 
这 样 棋艺 就 会 越 来 越 高 。 而 且 ， 这 些 定式 并 不 是 一 成 不 变 的 。 

安全 性 也 是 一 样 的 。 学 习 基础 知识 当然 很 重要 , 根据 当前 的 技术 和 友 展 趋势 重新 审视 这 些 知 识 也 很 重要 。 
本 连载 的 第 一 期 ， 我 们 先 来 谈 一 谈 密码 。 
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严格 来 说 ， 应 该 这 样 问 :“ 用 密码 的 认证 
方法 是 指 什 么 ?” 密 码 存在 这 样 一 种 机 制 ， 先 
共享 信息 ， 然 后 通过 确认 是 否 持 有 这 些 信息 来 
验证 对 方 身份 的 正当 性 。 其 中 那些 “共享 的 信 
息 ” 就 是 密码 。 

例如 ,《 上 忠臣 藏 》 里 亦 穗 浪人 杀 入 吉良 家 时 ， 
就 是 用 “ 山 ” 和 “ 川 ” 作 为 共享 信息 来 进行 确认 
的 。 这 也 可 以 称 为 一 种 密码 认证 。 此 时 ,“ 山 ” 
和 “ 川 ” 就 是 密码 。 

但 是 ， 这 并 不 是 本 人 认证 ， 而 只 是 确认 是 
否 是 共享 信息 的 持 有 者 (这 里 用 的 是 “者 ”这 
个 词 ， 但 “ 持 有 者 ”也 可 能 不 是 人 类 )。 有 时 胡 
乱 尝 试 一 个 密码 , 碰巧 撞 对 了 , 这 虽说 是 偶然 的 ， 
但 也 能 被 认为 是 “共享 信息 ”的 持 有 者 。 


EH 


码 : 实现 通行 的 " 码 ” 


@ 


分 析 计 算 机 的 密码 实现 方法 ， 从 表面 上 看 
大 概 是 这 样 的 : 


先 让 用 户 输入 8 个 左右 的 字符 ， 然 后 和 事先 
保存 在 计算 机 内 部 的 信息 进行 对 比 验证 ， 如 果 相 
同 的 话 ， 就 可 以 共享 隐匿 的 信息 。 


密码 中 学 符 串 的 长 度 ， 以 及 字符 的 可 用 类 
型 ， 都 是 由 系统 决定 的 。 这 方面 没有 明确 的 标 
准 ， 一 般 由 具体 的 实现 而 定 。 比 如 登录 UNIX 
时 使 用 的 密码 ， 可 以 是 大 小 写 英 文字 母 ，0 一 9 
的 数字 ，#、% 等 几 种 特殊 字符 。 但 是 ， 网 站 
的 登录 密码 大 多 只 使 用 大 小 写 英 文字 母 和 0 一 9 
的 数字 。 以 前 也 有 不 区 分 英文 字母 大 小 与 的 电 
脑 密码 。 这 样 看 来 ， 即 使 密码 可 用 字符 长 度 只 
为 1， 其 实现 方法 也 依赖 于 系统 。 


密码 : 希望 通过 验证 


的 “ 码 75 


以 下 2 个 密码 经 党 被 作为 密码 安全 的 反例 。 


(1) Hironobu1963 
(2) 12345678 


QD “安全 性 策略 ”说 起 来 好 听 ， 但 目前 很 多 安全 系统 都 是 马 
马虎 虎 ， 应 付 了 事 。 


是 名 字 和 出 生年 份 的 组 合 。 这 样 的 密码 
本 人 是 不 会 忘记 了 , 但 别人 也 很 容易 推测 出 来 。 
@) 不 管 是 谁 都 会 觉得 有 些 过 分 简单 了 。 但 
现实 还 真有 人 就 用 这 样 的 密码 ， 你 可 别 笑 。 
2012 年 7 月 ，CNET 上 登 了 一 则 有 趣 的 报道 : 


Yahoo hack reveals most-used passwords © 。 这 
则 报道 公布 了 2012 年 从 美国 雅虎 泄漏 出 来 的 
45 万 个 密码 的 分 析 结 果 。 表 1 列 出 了 笔者 比较 
感 兴趣 的 一 些 密码 。 
表 1 美国 雅虎 45 万 个 密码 的 分 析 结 果 (部分) 
发 现 的 密码 数 此 类 密码 


111111, 0000000, 777777.. 


password1, password2 


106 batman, superman... 


nce1701, nec1701a.. 


有 2295 个 密码 是 像 12345... 这 样 从 1 开始 
顺序 数列 的 数字 串 ， 有 160 个 密码 是 像 111111 
这 样 相同 数字 重 共 的 数字 串 ， 有 780 个 密码 


PAM 和 libpam-cracklib 


GUN/Linux 的 密码 认证 现在 采用 PAM (Pluggable 
Authentication Modules ) 机 制 。 这 比 古典 的 UNIX 
有 更 高 级 的 密码 认证 框架 。 

PAM 正 如 其 名 ， 以 插件 的 形式 存在 ， 在 必要 
的 时 候 可 以 对 密码 检查 进行 设置 。 

例如 Debian GNU/Linux 6.0.7， 没 有 装 libpam- 
cracklib 插 件 时 ， 可 以 容许 6 个 字符 的 密码 。 装 了 
libpam=-cracklib 揪 件 后 ， 默 认 设 置 就 是 8 个 字符 。 
在 有 些 系统 下 多 于 8 个 字符 的 部 分 会 被 忽略 (笔者 
还 没 遇 到 这 样 的 情况 ， 但 是 这 种 情况 是 有 可 能 存 
在 的 )。 如 果 使 用 libpam-cracklib， 密 码 的 最 小 长 


是 password 六 个 单词 ,T 有 233- 和 B09 只 是 和 有 
password 后 面 加 了 个 数字 ， 有 106 个 密码 是 像 
batman、superman 这 样 谁 都 能 想到 的 名 字 。 不 
仅 是 笔者 ， 各 位 谈 者 也 会 觉得 这 样 的 密码 简直 
太 人 简单 了 ， 但 是 这 就 是 现实 中 屡屡 被 使 用 的 密 
码 。 仅 仅 这 些 就 有 3000 多 个 账号 可 能 会 被 恶 
豆 思 各 不 下 当 使 用 。 

另外 27 个 像 nec1701、ncc1701a 这 样 的 字符 
串 是 什么 呢 ? 笔者 看 到 这 些 密码 的 时 候 ， 才 悦 
然 大 悟 。 实 际 上 , 这 是 《星际 迷航 》 中 U.S.S. 联 
邦 星 舰 “企业 号 ”的 登录 号 。 这 些 人 想 使 用 这 
些 密 人 码 的 情怀 是 可 以 理解 的 ， 但 是 ， 如 果 笔 者 
都 能 一 看 就 知道 的 话 ， 必 然 已 经 在 维基 百科 上 
存在 具体 记录 了 。 把 维基 百科 的 文本 存档 下 载 
下 来 ， 抽 出 所 有 的 字符 串 模式 ， 进 行 排 序 ， 然 
后 把 重复 的 字符 串 去 掉 ， 这 些 密 码 肯 定 会 在 剩 
下 的 结 采 中 。 虽 然 维基 百科 上 有 大 量 的 数据 ， 
但 是 把 这 些 数据 抽取 出 来 ， 现 在 也 不 是 很 难 的 
事情 。 用 笔记 本 电脑 就 可 以 做 基于 维基 百科 的 
密码 类 推 字典 。 


度 可 以 达到 人 2 个 字符 。libpam-cracklib 的 安装 方 
法 如 下 所 示 : 


# sudo apt-get install libpam-cracklib 


安装 完成 之 后 ， 在 /etc/pam.dicommon-password 
加 上 下 面 这 行 ， 密 码 的 默认 设置 就 变 成 8 个 字 
J 


password requisite pam_cracklib.so Zz 
retry=3 minlen=8 difok=3 


(2 http://news.cnet.com/8301-33692 3-57471417-305/yahoo-hack-reveals-most-used-passwords/ 


人 |: 
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w 没有 发 挥 应 有 作用 的 密码 


述 报道 并 不 是 说 泄露 的 密码 数据 都 已 
经 被 破解 了 ， 只 是 列 出 一 些 通过 穷 举 法 可 以 
找到 的 密码 。 那 么 到 底 有 多 少 密码 可 以 被 破 
解 呢 ? 

报告 指出 ， 汇 露 的 45 万 个 密码 中 的 137 559 
个 已 经 被 破解 ， 约 占 全 体 的 30%。 而 且 ， 其 中 
106 873 个 是 和 Gmail、Hotmail 通 用 的 密码 。 

就 在 笔者 撰写 本 文 时 , 传 出 了 过 诸 斯 (Dinos ) 
公司 遭 到 111 万 次 非法 访问 ，1.5 万 次 非法 登录 
的 新 闻 这 次 针对 迪 诺 斯 公司 的 大 量 非 法 访问 ， 
和 刚才 说 的 密码 泄露 事件 一 样 ， 都 是 利用 其 他 
网 站 上 泄露 的 密码 进行 的 尝试 登录 。 

最 近 ， 很 多 人 都 用 邮箱 地 址 作为 账户 名 ， 
如 采 在 不 同 的 网 站 使 用 同一 密码 ， 一 旦 一 个 网 
站 的 密码 被 破解 ， 入 侵 者 顺 腺 挽 瓜 ， 就 可 以 大 
摇 大 摆 地 进入 其 他 网 站 的 账户 。 

密码 本 来 的 目的 是 为 了 识别 用 户 , 但 是 ， 
系统 中 大 约 3 成 的 密码 都 没有 起 到 这 样 的 作用 。 
而 且 ， 这 些 不 负责 任 的 密码 所 珊 来 的 影响 还 波 
及 那些 根本 没有 汽 露 信息 的 网 站 。 

在 迪 诺 斯 事件 中 , 1.35% 这 个 百分比 不 可 
小 凯 。 在 迪 诺 斯 公司 并 未 有 任何 安全 性 泄露 的 
情况 下 ， 可 以 被 非法 使 用 的 账户 居然 多 达 1.5 
万 个 ! 这 么 多 数据 如 有 果 被 恶意 使 用 ， 其 后 采 不 
堪 设 想 。 

a a 
忧 了 。 但 是 看 看 这 些 触 目 惊 心 的 数字 ， 可 见 迄 
为 止 的 密码 认证 并 没有 达到 预期 的 效果 。 


(3) http://itpro.nikkeibp.co.jp/article/NEWS/20130510/475982/ 


安全 实践 鬼 手 雇 


系统 中 适当 的 密码 管理 
征 指 什么 


我 们 重新 来 整理 一 下 密码 的 管理 方法 以 及 
非法 破解 密码 的 方法 , 便于 理解 和 把 握 整 个 
论题 。 

但 是 , 像 之 前 提 到 的 123456、password 
这 样 的 密码 ,或 者 账户 名 是 admin、 密 人 码 也 是 
admin 的 情况 ， 只 要 试 几 次 就 可 以 破解 ,根本 
pe lo nn 
使 用 这 样 的 密码 只 能 说 是 太 愚 配 了。 不 过 ， 
Pe sen 
密码 本 和 对 就 是 一 个 欠缺 。 

现在 开始 进入 主题 。 我 们 讨论 的 前 提 是 
对 于 有 一 定 复杂 度 的 密码 ， 密 人 码 管 理 文件 从 网 
站 泄露 ， 并 使 用 专用 计算 机 破解 这 些 密码 。 关 
于 和 人 侵 网 站 的 方法 以 及 数据 文件 的 泄露 等 将 在 
以 后 的 章节 进行 讨论 。 

完 说 明 以 下 3 种 密码 管理 模式 ， 然 后 介绍 
一 下 都 是 采用 怎样 的 方法 进行 密码 破解 的 。 


国有 没有 保护 措施 的 密码 管理 


很 多 人 都 认为 ， 所 谓 的 密码 认证 就 是 把 用 
户 输入 的 字符 串 和 已 经 保存 好 的 密码 进行 比较 
(图 1)。 

这 种 方式 很 容易 实现 ， 但是， 一旦 密码 文 
件 泄露 ， 就 关乎 服务 能 否 存 续 ， 整 个 系统 的 用 
户 认证 也 会 朋 泪 。 这 是 因为 密码 不 用 经 过 任何 
加 工 就 可 以 直接 拿 来 使 用 。 

也 有 人 认为 控制 好 密码 文件 的 访问 就 可 以 
确保 安全 性 。 然 而 ， 只 有 这 种 保护 的 话 ， 就 没 
有 考虑 到 信息 被 泄露 的 可 能 性 。 系 统 仍 处 于 脆 


纶 的 状态 中 ,一 个 错误 束 可 能 导致 整个 系统 次 痪 。 


多 图 1 保存 的 密码 没有 受到 保护 
用 户 输入 初期 化 


R3%9#arM 


初始 化 过 程 


R37o9#a7M 


密码 文件 


优点 | 忘记 密码 时 ， 用 户 可 以 直接 找 回 密码 。 
扫 点 ee 股 灭 性 
这 样 的 系统 存在 很 大 的 问题 ， 即 使 我 们 不 
强调 很 多 读者 也 能 理解 。 我 们 可 能 乐观 地 认为 
这 样 的 系统 不 是 很 多 , 但 是 , 用户 忘记 密码 时 ， 
可 以 亲切 地 告知 原 密码 的 系统 ， 在 我 们 周围 并 
不 少见 


a 


单 癌 散 列 函数 是 指 具 有 以 下 特性 的 郴 数 : 
对 于 值 x， 使 用 荫 数 理 算 出 值 H(x)， 从 H(x) 很 
难 推 算出 x。 单 呵 散 列 函 数 也 不 是 只 有 MD5、 


4 图 2 引入 单 向 散 列 消 数 
用 户 输入 


R3%9#a7M 
单 向 散 列 函数 


| oxA73D2383D. | > 


优点 | 想 要 破解 密码 ， 就 必须 解析 加 密 的 密码 


gs 同一 个 密码 的 输出 是 一 样 的 ， 可 以 事先 做 好 密码 字典 


初始 化 过 程 


值 比较 


A 


SHA-1 SHA256 这 些 = 使 用 加 密 函 数 产 生 的 
消息 认证 码 ， 也 可 以 作为 单 向 散 列 本 数 使 用 ， 
比如 古典 UNIX 的 密码 ， 就 是 使 用 DES 加密 画 
数 的 DES-CBC-MAC 消息 认证 法 生成 。 

经 常 使 用 “对 密码 加 密 ” 的 表达 方法 ， 
ae 得 可 以 加 密 ， 是 不 是 
也 可 以 解密 呀 。 事 实 上 , 这 种 算法 是 不 可 逆 的 ， 
所 以 才 叫 单 向 散 列 函数 。 

先 输入 密码 ， 然 后 使 用 单 向 散 列 函数 算出 
其 哈 希 值 ， 再 与 事先 保存 好 的 单 呵 散 列 函数 
算出 的 哈 希 值 进行 比较 (图 2)。 比 如 Windows 
XP 等 使 用 的 LM 哈 布 (LAN Manager hash ) 就 


是 这 种 方式 。 

与 图 1 中 直接 保存 不 经 过 任何 加 工 的 字符 
串 相 比 , 已 经 有 很 大 进步 了 。 但 它 还 是 有 缺点 : 
相同 的 输入 会 得 到 相同 的 输出 。 所 以 ， 如 果 使 
用 的 是 在 字典 中 可 以 查 到 的 密码 ， 那 么 事先 处 
理 一 下 ,就 可 以 做 成 哈 希 值 的 字典 。 也 就 是 说 ， 
这 样 的 密码 系统 对 字典 攻击 的 抵御 是 很 脆弱 的 
(请 参照 ， 密 码 强 度 )。 


和 加 盐 ( Salt ) 的 密码 管理 


只 有 单 问 散 列 函数 的 话 ， 可 以 使 用 攻击 字 


单身 散 列 函数 


OxA73D2383D.. 


密码 文件 


典 破 解 。 解 决 这 个 问题 的 办 法 就 是 加 盐 : 为 每 
个 用 户 加 一 个 不 同 的 随机 值 ， 然 后 再 使 用 哈 希 
函数 (图 3)。 

盐 即使 不 隐藏 起 来 也 没关系 。 盐 越 长 ， 用 
于 破解 的 攻击 字典 就 越 庞 大 。 盐 虽然 是 随机 数 ， 
但 也 不 需要 太 大 ， 只 是 保证 当前 几 年 的 安全 性 
的 话 ， 有 32 比 特 (4 字 市 ) 就 足够 了 了。 实际 上 
70 年 代 使 用 的 是 12 比特 左右 。 考 虑 到 将 来 的 话 ， 
有 80 比 特 (10 字 节 ) 就 可 以 说 相当 安全 也。 

UNIX 的 密码 人 处理， 是 要 多 次 使 用 单 问 散 
列 函 数 进行 计算 的 一 种 比较 费时 的 方法 。 但 这 
种 方法 对 于 同时 要 应 对 大 量 用 户 的 Web 网 站 而 
言 ， 认 证 服务 器 可 能 就 会 超 负 荷 。 所 以 是 否 要 
采用 这 种 方法 ， 还 是 需要 慎重 考虑 的 。 增 加 密 


码 复杂 度 ， 可 以 采用 增加 可 用 字符 种 类 , 或 
者 增加 字符 数 等 重要 方法 。 这 才 是 普通 的 密码 
管理 电 。 


即使 是 安全 的 密码 


提 到 安全 的 密码 时 ,通常 总 是 推荐 这 样 


4 图 3 加 盐 
用 户 输入 


R3%9#arM 
单 向 散 列 函数 
OxCC89D2383D... 


优点 使 得 事先 破解 密码 无 效 


(需要 满足 必要 的 标准 ) 


初始 化 过 程 


值 比较 


Os | 


的 密码 : 组 合 复杂 的 密码 、 尽 量 长 的 密码 、 
频繁 更 换 的 密码 。 但 是 ， 笔 者 对 此 有 一 些 不 
同 的 看 法 。 


@ 组 合 复杂 的 密码 

人 们 会 加 入 自己 的 偏爱 ， 不 能 确保 安全 的 
随机 性 。 

@ 尺 量 长 的 密码 

高 估 了 人 类 的 记忆 力 。 结 果 还 是 倾向 于 选 
择 比 较 容易 记忆 的 密码 。 

@ 频繁 更 换 的 密码 

上 述 两 种 情况 的 重复 。 结 果 就 很 可 能 出 现 
容易 记忆 的 密码 ， 或 者 是 同一 个 窗 码 重复 使 用 
的 情况 。 


有 的 网 站 会 有 这 样 的 情况 : 比如 将 “I 
love you” 按 一 定 的 规律 换 成 “1 10v3 y0u”， 这 
种 不 在 英文 字典 上 出 现 的 字符 串 就 可 以 避免 字 
典 攻 击 ; 或 者 是 选择 目 己 喜欢 的 句子 的 各 个 单 
词 的 头 文字 ， 比 如 “Iwant to eat cake” 就 成 了 
“iwtec”。 但 这 种 杂乱 程度 对 电脑 来 说 根本 不 
算 什 么 。 


单 向 散 列 函数 


NN 


O22DE D2 
OxCC89D2383D... 


密码 文件 


(4) http://news.cnet.com/8301-33692 3-57471417-305/yahoo-hack-reveals-most-used-passwords/ 
G@) 这 里 所 说 的 “普通 ”不 是 指 单 纯 在 统计 上 种 类 增加 ， 而 是 指 与 “理想 接近 ”的 普通 。( 参考 : Dream Fighter by Y.Nakata ) 


对 于 从 互联 网 可 以 目 由 访问 的 网 站 服务 
而 言 ， 如 末 只 菲 密 人 码 来 防御 入 侵 的话 ， 所 


有 的 密码 只 能 是 用 机 和 奏 生 成 的 足够 长 的 随 
机 学 符 串 才 行 。 当 然 ， 数 十 位 其 至 上 百 位 
的 随机 字符 串 ， 人 们 是 记 不 住 的 。 所 以 就 
要 使 用 密码 管理 工具 。 与 使 用 计算 机 可 以 
轻易 破解 的 密码 相 比 ， 把 足够 长 的 随机 学 


@@ 窗 码 强度 


使 用 不 在 字典 上 、 完 全 是 随机 字符 串 的 
密码 ， 到 底 可 以 安全 到 什么 程度 呢 ? 前 提 
条 件 是 使 用 英文 字母 (区 分 大 小 写 )、 数 字 
(0-9A-Za-z) 的 62 个 字符 。 考 虑 Web 服 务 
标准 的 密码 模式 ，8 个 字符 时 ， 约 有 218 兆 
3401 亿 个 ; 10 个 字符 时 ， 约 有 84 京 个 。 

假设 使 用 的 单 向 散 列 函数 是 SHA-256， 
可 供 使 用 的 计算 机 有 一 台 ， 其 配置 是 在 秋 叶 
原 可 以 搞定 的 水 平 ， 花 多 少 钱 暂 且 不 管 ， 插 4 
条 经 常 玩 大 型 游戏 的 人 才 用 的 NVIDIAGeForce 
GTX-690， 凌 4 核 以 上 的 CPU。 

SHA-256 在 1 秒 内 大 约 计 算 22 亿 次 。 顺 
便 提 一 下 ，SHA-1 的话 大 约 是 44 亿 次 ，MD5 
的 话 大 约 是 140 亿 次 。 不 过 说 到 底 这 只 是 笔 
者 的 大 概 估 算 ”。 

因为 是 求 平均 值 ， 我 们 只 计算 8 个 字符 
组 合 218 兆 个 的 一 半 109 净 ， 大 约 是 49 622 
秒 ， 也 就 是 大 约 有 14 个 小 时 的 话 就 可 以 破解 。 
10 个 字符 的 话 ， 大 约 要 6 年 多 的 时 间 。 

在 没有 使 用 加 盐 的 单 向 散 列 函数 的 情况 
下 ， 可 以 使 用 逆 推 字典 。8 个 字符 的 情况 ， 产 
生 逆 推 字典 的 计算 时 间 如 上 所 示 。 但 是 要 保 
存 这 些 数据 ， 这 次 假定 的 条 件 是 实现 不 了 的 。 


密码 的 重新 思考 


和 伯 串 写 到 纸 士 ,好 好 保管 那 张 纸 ， 这 样 的 


村 方法 反而 更 安全 。 


或 者 , 干脆 彻底 放弃 ， 想 一 个 自己 下 次 合 
录 也 记 不 起 来 的 、 别 人 就 更 记 不 住 的 超 复杂 的 


密码 O 等 到 目 已 使 用 的 时 候 就 重新 设置 密 公 O 


不 这 样 走 极 并 的话， 本 来 赋予 密码 的 用 户 


认证 功能 束 实 现 不 了 。 


别 的 什么 都 不 管 ， 只 做 字典 的 话 ， 因 为 要 保 
存 大 量 的 密码 和 哈 希 值 的 对 应 关系 列表 ， 大 
约 估算 一 下 也 需要 10 PB (petabyte ) 的 容量 。 
这 样 大 的 容量 可 以 和 数据 中 心 使 用 的 最 大 级 
别 的 外 部 存储 装置 相 匹 政 了 。 

虽说 现在 硬盘 容量 又 大 价格 又 便宜 ， 那 
它 的 容量 也 不 过 也 就 是 4TB 左 右 。 当 然 以 后 
还 会 发 展 ， 但 是 要 想 在 秋 叶 原 就 买 到 PB 级 别 
的 存储 设置 ， 还 得 是 很 久 以 后 的 事情 。 

但 是 ， 如 果 使 用 加 密 学 方法 “， 并 不 需要 
保存 所 有 的 对 应 关系 ， 只 需 做 一 个 辅助 查找 的 
表 。 虽 然 数 据 交 换 会 花 一 点 时 间 ， 但 需要 存储 
的 数据 量 会 发 生 戏 剧 性 地 减少 。 而 且 ， 实 现 方 
法 已 经 公开 “了 。 使 用 这 些 代码 ,结合 实际 
系统 的 情况 使 用 起 来 并 不 是 一 件 很 难 的 事情 。 

这 里 顺便 提 一 下 ， 用 于 Windows XP 和 
Vista 的 字典 表 已 经 做 好 了 。* 对 Vista 而 言 ， 
8 个 字符 的 随机 英文 数字 (区 分 大 小 写 ) 密 
码 ， 表 的 数据 量 大 约 是 134.6 GB (检索 成 功 
率 99% )。 这 已 经 是 笔记 本 电脑 可 以 承受 的 容 
量 了 。 也 就 是 说 笔记 本 电脑 也 可 以 在 几 秒 或 
几 十 秒 的 检索 时 间 范 围 内 ， 以 99% 的 准确 率 
来 破解 密码 了 。 


Q 这 是 根据 Ivan Golubev” s Password Recovery Suite 推 导出 来 的 。http://www.golubev.com/igprs/ 
(2 Making a Faster Cryptanalytic Time-Memory Trade-Off, http://lasecwww.epfl.ch/~oechslin/publications/crypto03.pdf 
G@) OPHCRACK 网 站 http://lasecwww.epfl.ch/~oechslin/projects/ophcrack/ 


(4) http:/ophcrack.sourceforge.nettables.php 


Os | 


冯 十 


三 日 


现实 中 ， 不 得 不 说 很 多 地 方 的 密码 管理 和 
运用 方法 都 已 经 Out 了。 然而 ,换个 角度 看 ， 
目前 密码 还 处 于 全 盛 期 。 

笔者 认为 应 该 积极 采用 公用 密 是 方式 的 用 
户 认证 方法 。 这 种 技术 对 UNIX 用户 来 说 并 不 
卫生 ， 因 为 有 SSH 公 用 密 是 认证 等 。 但 就 现状 
来 说 ,一般 情况 下 还 是 很 难 普及 。 


尽管 现状 如 此 ， 一些 高 科技 企业 的 认证 方 
式 还 是 正在 慢 慢 地 发 生 关 变化。 比如 Google 
账户 已 经 有 双重 认证 了 。 笔 者 就 在 用 ， 并 没有 
想象 中 的 那么 复杂 。 笔 者 认为 ， 像 银行 交易 等 
涉及 金额 可 能 很 大 的 场合 ， 使 用 一 次 性 口令 的 
安全 令 牌 也 是 很 合理 的 方法 。 

现在 可 以 说 正 处 于 从 古典 密码 认证 到 新 一 
代 认 证 的 青黄不接 之 际 。 在 很 长 一 段 时 间 内 ， 
还 会 继续 使 用 现在 的 密码 。 

关于 用 户 认证 的 讨论 还 远 远 不 够 ， 我 们 下 
回 再 分 解 ， 这 次 就 到 这 里 。 
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“本 书 很 好 地 概述 了 安全 机 制 和 攻防 策略 ， 介 绍 了 当前 的 入 侵 技术 ， 不 仅 是 初级 编程 人 员 及 爱好 者 的 入 门 指 南 ， 也 是 高 级 用 户 的 
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“本 书 为 读者 准备 了 开发 漏洞 攻击 程序 及 越狱 工具 的 相关 知识 与 技术 ， 建 议 想 要 尝试 开发 越狱 工具 或 了 解 其 原理 的 朋友 购买 阅读 。 

“本 书 深入 探讨 了 i05 安 全 ， 不 仅 介 绍 其 现状 ， 而 且 审 视 了 iO5 面世 以 来 的 受 攻击 情况 …… 如 果 你 想 对 移动 安全 有 更 多 的 了 解 ， 本 
书 绝对 不 会 让 你 后 悔 。 
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“关于 黑客 攻防 技术 ， 没 有 一 本 书 能 比 这 本 书 讲解 得 更 为 透彻 和 全 面 ! 

一 一 Jason Haddix， 惠 普 公司 渗透 测试 总 监 
“如 果 你 对 Web 应 用 程序 安全 感 兴 趣 ， 我 强烈 推荐 本 书 ， 它 实 为 Web 安全 人 士 必 读 之 作 。 

一 一 Robert Wesley McGrew，McGrew 安全 公司 研究 人 员 
“第 1 版 本 来 就 是 Web 安全 领域 的 打 蜀 之 作 ， 第 2 版 可 谓 经 典 之 上 的 完善 ， 绝 对 值得 拥有 1! ” 

一 一 Daniel Miessler， 安 全 顾问 
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第 2 版 全 面 升级 ， 涵 盖 了 最 新 的 攻击 技巧 与 应 对 措施 ， 此 外 ， 书 中 还 。 者 渤 
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列 出 了 几 百 个 “漏洞 实验 室 ”， 以 帮助 读者 对 所 学 内 容 进行 巩固 和 实战 演习 。 


黑客 攻防 技术 宝典 


Web 实 战 篇 (第 2 版 ) 


TURING 


延 种 阅读 


图 灵 教育 


7100 


em RR 


荣 乌 编程 入 门 


开发 一 个 上 吃 hone 阅 姐 尖 ) 


准备 APP 开 发 需 


的 图 卢 


(ellulnlelgelninl en ee tol A 


http:Wninebonz.net/ 
http://www.studioloupe.com/ 
译 / 苏 社 


本 次 主题 


@ 


制作 iPhone APP 需 要 各 种 准备 ， 其 中 一 个 
即 为 图 片 的 准备 。 这 与 程序 一 样 ， 是 完成 APP 
制作 中 非常 重要 的 一 个 环节 。 本 次 ， 我 们 将 介 
绍 制作 APP 所 必需 的 图 片 种 类 ， 并 解说 准备 这 
些 图 片 所 有 的 步 又。 


为 何 需要 准备 各 种 图 片 ? 
©® 
由 于 不 同 的 机 型 要 使 用 到 的 图 片 会 有 所 不 一 ， 
所 以 我 们 需要 准备 多 种 图 片 。 现 在 ， 仅 iPhone 
和 iPodtouch 就 有 如 下 3 种 机 型 : (参见 图 1) 


V 图 1 3 种 尺寸 的 屏幕 解析 度 
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本 连载 希望 从 未 编程 过 的 人 也 可 以 体验 制作 APP 的 乐趣 。 此 次 我 们 将 介绍 
制作 APP 所 需要 的 图 片 的 制作 方式 。 


1. 从 第 一 代 iPhone 到 3GS 为止 的 3.5 英 寸 
显示 屏 机 型 (分辩 率 为 320 x 480 像 素 ) 

2. iPhone4 到 4S 为 止 的 3.$ 英 寸 Retina 
显示 屏 机 型 (分辩 率 为 前 者 2 倍 的 
640 x 960 像 素 ) 

3. iPhoneS 开始 的 4 英寸 Retina 显示 屏 机 型 
(分 状 率 仅 高 度 有 改变 ,为 640x1136 
像素 ) 


iPhone5 刚 推 出 时 ,4 英寸 界面 适用 的 图 片 
是 作为 推荐 的 ， 但 并 不 是 必要 条 件 。 然 而 , 今 
后 非 适 配 4 英 寸 界 面 的 APP 将 无 法 通过 审核 ， 
所 以 这 就 变 成 了 开发 者 必须 对 应 的 内 容 。 在 本 
连载 中 的 第 1 回 和 第 2 回 中 ,为 了 能 简洁 明了 
地 解说 APP 的 开发 ， 只 适 配 了 3.5 英 才 的 界面 ， 
从 本 文 开始 ,我 们 将 也 应 对 4 英寸 的 界面 。 所 
以 至 少 需 要 准备 3 种 机 型 的 图 片 。 


制作 图 片 

如 前 文 所 述 ，APP 开 发 需要 通过 各 种 样 
式 来 制作 图 片 ,但 简单 来 说 实际 上 只 需要 关 
注 3.5 英 十 和 4 英才 两 种 太 才 就 行 了 。 旧 机 型 
的 3.5 英 寸 ( 低 分 辩 率 ) 所 需要 的 图 片 , 仪 需 
要 通过 将 高 分 辨 率 的 图 片 按 照 原 本 的 50% (一 
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半 ) 缩小 就 可 以 了 。 这 个 只 要 通过 Mac 内置 的 
APP"“ 预 委 ”( 图 2) 就 可 以 人 简单 完成 。 
首先 ， 将 希望 缩小 的 图 片 一 起 拖 搜 到 预览 


图 2 预 哆 的 图 标 


V 图 4 预览 中 将 尺寸 变 为 50% 


图 像 尺 十 
适合 : | 自 定 $ | 像素 
~ 
50 上 「 百分比 ;| 
高 度 : | 50 
分 辩 率 : | 72 | 像素 /英寸 3 
以 比例 缩放 
[Y 重新 采样 图 像 
结果 大 小 
7.16 x 6.67 厘米 
33 KB ( 原 为 68 KB) 
[| 取消 | | 好 | 


中 打开 。 这 样 在 左 侧 就 会 纵向 显示 图 片 的 缩 略 
图 (只 有 1 张 时 不 会 出 现 缩 略 图 )。 选 择 其 中 一 
张 缩 略图 ， 按 住 command+A 键 选择 所 有 图 片 ， 
从 菜单 栏 的 “工具 ”中 选择 “调整 大 小 “图 3)， 
在 弹出 的 对 话 框 中 ， 在 宽度 和 高 度 的 右 侧 的 下 
拉 框 中 选择 百分比 ， 并 将 两 个 数字 都 从 100 调 
整 为 50( 图 4)。 接 下 来 点 击 “OK”， 即 可 把 所 
有 图 片 缩 小 到 一 半 的 尺寸 。 


图 片 文 件 的 格式 

iPhone 中 可 以 谈 取 各 种 格式 的 图 片 文件 ， 
但 苹果 公司 最 为 推荐 的 是 PNG 格 式 的 图 片 ， 
所 以 请 尽 可 能 使 用 PNG。PNG 也 可 以 成 为 透 
明 ( 半 透 明 ) 的 图 片 ， 所 以 在 APP 开 发 中 比较 
易于 使 用 。 比 如 说 , 使 用 圆 形 按钮 时 ， 寿 是 
PNG 的 话 ， 将 余 日 部 分 保持 为 透明 就 可 以 简 
单 地 和 背景 融 为 一 体 。( 图 5) 


图 片 的 像素 尺寸 要 使 用 侦 数 


在 制作 图 片 的 时 候 ， 请 注意 保证 像 系 数字 
为 偶数 。 像 系 最 少 以 1 像 系 为 单位 ,不 存在 半 
像 系 。 如 果 在 Retina 用 的 图 片 尺寸 中 使 用 了 奇 
数 像 系 的 话 ， 因 为 不 存在 刚好 一 半 的 信 寸 ， 所 
以 在 制作 低 分 辨识 机 型 适用 的 图 片 时 ， 就 会 目 


图 5 透明 图 片 的 效果 
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动 被 变换 成 最 近似 的 像 系 。 这 样 的 话 ， 就 有 可 
能 会 造成 设计 上 的 误差 ， 所 以 需要 注意 。 


片 的 种 类 
APP 开 发 所 必 备 的 图 片 如 下 : 


【 图 标 图 片 ( 3 种 ) 图 6】 

。icon.ong( 57 x 57 像 素 ) 

。icon(@2x.png ( 114 x 114 像 素 ) 

。APP Store 用 的 高 分 辨 紊 图 标 ( 1024 x 1024 
像素 ) 

【 默认 图 片 (至 少 一 个 )]】 

。Default-568h(@2x.png( 640 x 1136 像 素 
的 图 片 ) 

【 APP 内 要 适用 的 其 他 图 片 ( 3 种 )】 

。3.5 英 寸 屏 幕 ， 非 Retina 图 片 (320x480 
像素 ， 或 与 480 x 320 像 素 适 配 的 ) 

。3.5 英寸 屏幕 ，Retina 图 片 ( 640 x 960 像 
素 ， 或 与 960 x 640 像 素 适 配 的 ) 

。4 英 寸 屏 幕 ，Retina 图 片 (640x1136 像 
素 ， 或 与 1136 x 640 像 素 适 配 的 ) 


V 图 6 3 种 图 标 
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App Store 图标 


接 下 来 我 们 逐个 详细 说 明 。 


@2x 图 片 


最 先 需 要 说 明 的 是 ， 在 文件 名 和 扩展 名 之 


间 有 @2x 的 图 片 文件 。 这 个 是 为 了 区 分 高 分 
辨 率 “Retina 屏幕 用 ”所 使 用 的 画面 。 只 要 在 
文件 名 后 加 入 @2x， 程 序 就 会 自动 将 其 识别 为 
Retina 用 图 片 ， 并 在 使 用 高 分 辨 率 的 机 型 时 自 
动 切换 。 所 以 在 低 分 辨 率 和 高 分 辩 率 的 机 型 间 
的 图 片 切换 不 需要 制作 特别 的 程序 。 

相反 ，3.5 奖 寸 和 4 英才 的 图 片 切换 只 能 通 
过 程序 进行 。 所 以 在 图 片 命 名 上 并 没有 特别 的 
规则 。 在 与 Default 图 片 一 样 的 文件 名 后 加 入 
代表 568 磅 的 -568h 或 者 是 加 入 -4inch 就 更 容 
易 管 理 了 。 


像素 和 氮 的 区 别 

此 次 用 到 很 多 数字 ， 所 以 希望 大 家 务必 明 
确 ， 像 素 (pixel) 和 点 (point) 的 区 别 ， 避 免 混 
消 。 程 序 在 描述 或 移动 文件 时 ， 不 使 用 像素 数 
而 是 通过 点 数 来 进行 计算 。 这 个 点 数 在 标准 解 
析 度 ( 非 Retina) 画面 中 会 按照 1 点 =1 像素 ( 横 
竖 1x1 像 素 ) 来 计算 ， 所 以 点 数 和 像素 数 是 
一 种 比例 关系 。 但 是 在 解析 度 为 2 倍 的 Retina 
屏幕 下 ， 这 个 点 数 的 处 理 需 要 统一 ， 所 以 在 
Retina 显示 屏 机 型 中 ,横竖 2 像素 会 计算 为 1 
点 。 就 是 说 ， 在 Retina 显 示 屏 下 ， 点 是 像素 的 
一 半 。 在 新 的 4 英寸 显示 屏 中 ， 纵 向 有 1136 像 
素 ， 但 换算 成 点 的 话 ， 就 是 其 一 半 ， 是 568 点 。 
4 英寸 的 图 片 文件 名 后 面 的 “568h” 就 是 指 这 
个 点 数 。 

由 于 点 数 不 是 常用 数据 ， 你 可 能 需要 一 点 
时 间 来 习惯 ,但 实际 上 这 个 并 不 复杂 。 在 开始 
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编程 后 目 然 而 然 就 会 理解 ， 所 以 现 阶段 不 需要 
对 此 太 过 深入 思考 。 


图 标 图 片 


我 们 一 共和 需要 准备 3 种 图 标 图 片 ， 分别 为 


两 种 在 手机 桌面 排列 的 图 标 图 片 〈 低 分 辨 率 和 
高 分 辨 率 ) 以 及 App Store 所 需要 的 高 画 质 图 片 。 

App Store 用 的 高 分 状 率 图 标 ( 1024 x 1024 
像素 ) 由 于 不 在 APP 中 使 用 ， 所 以 不 需要 放 人 
到 APP 中 。 但 是 APP 提 交 审 核 时 需要 上 传 ， 所 
以 一 并 制作 完 会 好 一 些 。 最 简便 的 方法 是 ， 先 
制作 1024 x 1024 像 系 尺 才 的 图 标 ， 将 其 缩小 
成 114x114 像 素 和 57 x 57 像 素 两 种 图 标 。 但 
是 由 于 缩小 率 很 高 ， 所 以 缩小 后 的 效果 可 能 和 
预期 不 一 样 。 这 时 就 需要 根据 各 个 尺寸 进行 微 
调 ， 或 是 从 头 开 始 制 做 。 特 别 是 57 x 57 像 素 
分 辨 率 很 低 ， 所 以 很 精细 的 图 案 不 易 表现 出 来 。 

男 一 点 需要 注意 的 是 ， 图 标 图 片 是 不 可 以 
使 用 半 透 明 背 景 的 。 所 以 图 标 请 按照 正方 形 来 
制作 ， 四 角 的 圆 孤 会 在 陈列 到 手机 如 面 时 自动 
被 处 理 。( 图 7) 


启动 图 片 


启动 图 片 是 从 点 击 APP 图标 瞬间 ， 衔 接 至 


APP 局 动 (完成 谈 取 ) 的 短 时 间 的 图 片 。 这 也 
被 称 为 局 动画 面 。 介 于 最 近 iPhone 的 性 能 来 说 ， 
除非 是 启动 时 间 非 第 长 的 APP， 一般 来 说 不 会 


图 7 制作 成 正方 形 的 话 会 目 动 将 边 角 变 成 圆 弧 
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等 竺 很 入， 所 以 直接 使 用 一 张 黑色 的 图 片 也 是 
可 以 的 。 但 是 ， 比 如 说 要 展示 品牌 的 logo， 或 
是 显示 为 “启动 中 ”等 内 容 ， 也 可 以 对 启动 画 
面 做 一 些 优化 加 工 。 

有 一 个 技巧 ， 就 是 将 局 动 后 最 先 出 现 的 画 
面 截 图 ， 并 设置 为 启动 画面 ， 这 样 就 会 让 人 感 
觉 到 该 应 用 启动 很 快 。 但 对 此 做 法 ， 大 家 的 意 
见 不 一 。 也 有 一 部 分 用 户 反馈 APP 明 明 已 经 
启动 了 , 但 触摸 后 没有 任何 反应 ,感觉 到 体 
验 不 佳 。 这 种 情况 下 ， 耕 将 半 透 明 的 黑色 图 片 
(50%~~70% 左 右 ) 加 在 启动 画面 之 上 ,让 用 
户 感觉 到 还 没有 完全 局 动 ， 应 该 就 可 以 避免 这 
样 的 混淆 了 (图 8)。 


APP 内 使 用 的 其 他 图 片 


APP 内 使 用 的 图 片 ， 是 指 按钮 图 片 、 背 景 
图 片 ， 若 是 写真 集 APP 的 话 还 包括 照片 的 图 片 
等 。 按 钮 图 片 等 内 容 可 能 只 需要 准备 低 分 辨识 
和 高 分 辨识 两 个 版 本 ,但 布 满 整 个 画面 的 背景 
图 片 ， 以 及 需要 全 屏 展 示 的 照片 及 图 案 等 ,就 
需要 准备 3.5 英 十 的 低 分 辨 率 和 高 分 辨 率 岁 片 ， 
以 及 4 瑞 十 的 高 分 辩 率 网 片 共 3 种 。 


阅读 到 这 里 ， 你 可 能 会 觉得 需要 准备 很 多 


V 图 8 默认 界面 


默认 界面 启动 后 的 界面 


图 片 ， 但 其 中 大 约 一 半 图 片 都 是 可 以 通过 压缩 
高 分 辩 率 原 图 得 到 , 所 以 工作 量 并 不 是 非常 大 。 
只 要 掌握 好 需要 制作 哪些 图 片 ， 就 可 以 有 效 顺 
利 地 完成 图 片 制 作 。 

我 们 以 第 2 回 连载 中 制作 的 写真 集 APP 为 
例 ， 具 体 地 思考 一 下 。 需 要 制作 的 图 片 如 下 : 


(a) 在 手机 桌面 会 展示 的 图 标 两 种 
(b) 启动 图 片 
(c) 各 页 面 的 照片 图 片 各 3 种 


(a) 的 图 标 现在 还 不 需要 加 App Store 提 
交 ， 所 以 只 要 准备 114x 114 像 素 和 57x 57 像 
素 两 种 就 可 以 了 。 但 如 之 前 所 述 ， 知 采用 从 大 
图 片 缩 小 制作 小 图 厂 的 方法 ， 也 可 以 从 需要 问 
App Store 提 交 的 图 标 开 始 制作 。 在 本 文 的 举 
例 中 ,我 们 将 两 个 图 标 文件 命名 为 icon.png， 
Icon(O2X].png。 
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(b) 默认 图 片 是 在 新 项 目 启动 时 就 应 自动 
包含 的 文件 (Defaultpng，Default@2x.png， 
Default-568h@2x.png)。 但 是 在 本 连载 中 ， 

1 回 的 第 9 步 中 特地 删除 了 Default-568h@2x. 
png 造 成 了 不 适 配 4 莫 寸 , 所 以 仅 需要 重新 添 
加 这 一 张 图 片 (今后 制作 新 的 APP 时 ,已 经 存 
在 的 自动 生成 文件 ， 不 需要 另外 添加 )。 只 要 
图 片 尺 寸 是 640 x 1136 像 素 ， 即 使 是 全 黑 的 一 
张 图 片 也 是 可 以 的 。 

(c) 中 各 页 面 照片 的 图 片 (Pagel.png~Page6. 
png， 各 位 制作 的 写真 集 APP 里 面 所 需要 的 图 
片 张 数 应 该 会 不 同 ， 所 以 此 处 请 根据 具体 情况 
调整 ) 之 前 都 是 适 配 3.5 英寸 屏 茶 ， 而 非 Retina 

屏 攻 ， 所 以 分 别 需要 制作 “4 英寸 屏幕 的 Retina 
图 片 ” 和 “3.5 旭 寸 屏 幕 的 Retina 图 片 ”。 并 将 
前 者 命名 为 PageX-568hQ@2x.png(X 代 表 页 面 
编号 )， 将 后 者 名 命名 为 PageXG@2x.png(X 代 
表 页 面 编号 )。 这 样 的 话 ， 要 添加 的 图 片 准备 


图 9 将 Default-568h@2x.png 复 制 到 Supporting Files 内 
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开发 一 个 iPhone 阅读 类 应 用 


完成 ， 其 文件 名 为 Page1-$68@2x.png~Page6- 
568@2x.png 5S Pagel@2x.pne~Page6@2x.pngo 


使 APP 适 配 4 英 寸 屏幕 的 方法 


在 所 有 的 图 片 准 备 完成 后 ,就 终于 要 用 
Xcode 来 进行 4 瑞 寸 的 APP 适 配 了。 从 这 
开始 ,将 以 对 第 2 回 制作 的 APP 的 处 理 为 例 ， 
来 进行 说 明 , 所 以 请 使 用 Xcode 打开 已 制作 
完成 的 APP 项 目 (在 本 文中 的 举例 中 命名 为 
MyBook2.xcodeproj )。 


首先 ， 请 将 PageX-568h@2x.png 拖 搜 到 
Xcode 的 “Supporting Files” 中 (图 9)。 同 理 ， 
将 两 个 图 标 文 件 也 加 入 到 “Supporting Files” 
中 ， 而 将 需要 添加 的 照片 图 片 加 入 到 与 原来 的 


为 了 完成 图 标的 设 定 ， 点 击 左 沫 单 栏 的 
最 上 方 的 项 目 文件 ,选择 “TARGETS” 下 面 
的 项 目 文 件 名 (例子 中 为 MyBook2， 见 图 10)。 
滑动 鼠标 找到 “App Icons” 的 区 域 ， 将 刚才 添 
加 到 “Supporting Files” 的 图 标 文件 按照 图 11 
所 示 逐 个 拖 搜 到 四 方形 的 盒子 中 。 左 边 是 低 分 
辨 率 的 图 标 ， 右 边 是 Retina 显示 屏 的 图 标 。 这 
样 就 在 手机 加 面 可 以 作为 图 标 展 示 了 。 默 认 设 
置 中 ， 图 标 会 被 自动 加 上 光泽 感 ， 但 符 不 想 要 
此 效果 ， 请 将 “Prerendered” 勾 选 

接 下 来 ， 只 要 添加 上 Default-568h@2x.png 
就 算是 适 配 了 4 英寸 的 屏幕 了 ,但 里 面 的 图 片 
厂 没 有 调整 成 4 器 寸 的 屏 硕 的 话 ， 束 仍然 会 有 
余 日 ， 无 法 算 作 是 真正 完成 了 适 


照片 同样 的 文件 夹 (例子 中 为 “MyBook2”)。 在 没有 放 和 人 人 Default-$68h@2x.png 的 状态 
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下 ,〈 未 适 配 4 英寸 ) 启动 APP 的 话 ， 图 片 会 上 
下 居中 ， 并 在 屏幕 上 下 部 分 别 会 出 现 黑色 的 条 
状 ( 图 11 的 左 )。 但 若 放 和 了 了 Default-568h@2x. 
png 后 〈 适 配 了 4 英寸 )， 通 过 模拟 需 确 认 的 话 ， 
图 片 会 项 端 对 齐 ， 下 方 会 出 现 较 大 的 白色 余 日 
(图 11 的 右 )。 虽然 看 上 去 不 是 很 美观 , 但 理论 
上 这 样 算是 已 完成 了 4 英寸 的 适 配 。 

这 之 后 , 关于 3.5 英 寸 和 4 英寸 的 画面 切换 ， 
处 理 的 方法 会 不 一 样 。 最 简单 的 、 不 需要 写 任 
何 代码 的 方式 就 是 在 底部 余 日 部 分 (88 点 ) 中 


第 3 回信 省 从 PP 开 妇 禹 安 果 图 厂 


但 是 奉 希 望 在 3.$ 英 寸 的 时 候 和 4 英寸 的 
时 候 分 别 显 示 不 同 的 图 片 的 话 ， 就 需要 通过 编 


® 


以 上 即 为 iPhone APP 开 发 所 和 需要 的 图 片 准 
备 。 在 下 一 期 的 连载 中 会 解说 通过 实际 编程 来 
判别 不 同 机 型 ， 以 实现 图 片 在 3.5 更 寸 屏幕 4 


加 入 一 些 设计 ， 只 有 在 4 英寸 的 屏幕 时 会 看 到 ， 
3.$ 英 二 的 时 候 就 会 隐藏 (图 12)。 


英才 屏 医 间 的 切换 。 


Y 图 11 4 英寸 默认 图 片 V 图 12 ”对 余 白 进行 设计 


在 4 英寸 屏幕 中 显示 


在 3.5 英 寸 屏幕 中 显示 
P 一 ES 


一 骆驼 和 沙漠 ~ 骆驼 和 沙漠 ~ 
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正确 理解 虚拟 化 技术 
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镶 焊 和 糙 序 


用 Intel VT-x 构 建 超级 系统 官 理 程序 之 六 
用 尸 空 间 ( user land ) 的 IO 模拟 


文 / 浅 田 拓也 (ASADA Takuya) @syuu1228 译 / 杨 驹 武 


Ea 


上 期 我 们 讲解 了 从 VMX non root mode 向 
vmm.ko 发 出 VMExit 时 的 处 理 。 本 期 我 们 来 讲 
一 讲 接收 到 由 VO 命令 引起 的 VMExit 后 ， 在 用 
户 区 进行 的 模拟 处 理 。 


关于 产程 序 ) 


本 连载 将 对 FreeBSD-CURRENT 下 BHyVe 
的 源 程 序 进行 讲解 。 该 源 程序 可 以 从 FreeBSD 
的 Subversion 文档 库 里 取得 。 修订 版 本 号 为 
r245673 。 

在 PC 里 安装 
令 取得 源 程序 。 


Svn co -r245673 svn://svn.freebsd.org/ 
base/head src 


Subversion 后 ， 用 下 面 的 命 


/usrsbin/bhyve 生 成 和 虚拟 CPU 个 数 相同 


的 进程 ， 
发 出 VM RUN ioctl( 图 1)。vmm.ko 接 到 ioctl 


个 进程 分 别 向 /devivmm/$ {name} 


后 把 CPU 切换 成 VMX non root mode， 执 行 客 
户 机 操作 系统 (VMEntry )。 

VMX non root mode 状态 下 ， 如 有 条 发 生 了 
需要 超级 系统 管理 程序 介入 的 事件 ， 控 制 会 
回 vmm.ko， 引 发 VMExit 事 件 。 

如 果 事 件 需 要 由 /usr/sbin/bhyve 处理 ,会 
返回 ioctl, 控制 转移 到 /usr/sbin/bhyve。/usr/ 
sbin/bhyve 参 照 事 件 的 种 类 和 寄存 硕 的 值 进行 


设备 模拟 等 处 理 。 
这 次 ,我 们 来 看 一 下 /usr/sbin/bhyve 的 设 
备 模拟 处 理 部 分 。 


承 续 上 期 解说 ， 我 们 再 来 看 一 下 由 IO 命 
令 引 起 VMExit 的 情形 。VMExit 的 相关 信息 
被 写 入 VM RUNioct 的 参数 struct vm rum 


有 图 1 由 VM_RUN ioctl 执 行 虚拟 中 央 处 理 器 的 图 示 


USer 
program 


/USr/sbin/bhyve 


ioctl (VM_ RUN) 


BSD 
kernel 


VMExit 


guest 
mo Se 
VMEntry 


第 10 回 


的 vm_exit 成 员 (struct vm_exit) 中 ，ioctl 返 
回 时 复制 到 用 户 区 。/usr/sbin/bhyve 接 收 到 以 
后 ， 参 照 vmexit->exitcode 来 判断 VMExit 的 起 
， 根 据 VMExit 的 起 因 ， 调 用 不 同 的 处 理 。 


由 LO 命令 引起 VMExit 时 的 exitcode 是 VM 


EXITCODE INOUT。 

在 VM EXITCODE INOUT 时 ， 通 过 
struct vm_ exit 把 IO 命令 模拟 所 需 的 信息 [ 端 
口号 ， 访 问 带 宽 ， 写 人 值 ( 非 读 入 时 )，LO 方 
回 (in/out)] 传递 

/usrsbin/bhyve 把 这 个 值 传递 给 LIO 模拟 需 
通过 IO 端口 号 判断 要 访问 的 设备 ， 调 用 该 设 
备 控制 程序 。 


全 vmm.ko。 


代码 清单 1 lib/libvmmapi/vmmapi.c 


用 Inte VT- x 构建 超级 系统 管 3 理 程序 之 六 


户 空间 (user land ) 的 VO 模拟 


设备 控制 程序 执行 结束 后 ，/masrsbin/ 


bhyve 再 次 发 出 M RUN ioctl， 客户 机 再 度 开 
始 运行 。 

我 们 按照 上 面 所 讲 ， 详 细 看 一 下 源 程 序 。 
代码 清单 1、 代 码 清单 2、 代 码 清 单 3 和 代码 清 
单 4 是 源 程序 。 


\ 的 vmmapic 和 bhyverun.c 的 解说 


libvmmapi 是 把 访问 vmm.ko 的 ioctl: sysctl 
抽象 化 的 程序 库 。/usr/sbin/bhyve: /usr/sbin/ 
bhyvectl 调 用 它们 来 访问 vmm.ko (代码 清单 1 )。 

代码 清单 2 的 bhyerun.c 是 /usr/sbin/bhyve 
的 核心 程序 。 


ee (省 略 ) oe 

280 int 

281 vm_run(struct vmctx xctx，int vcpu, uint64_t rip, struct vm_exit xvmexit) 

2 

283 int error; 

284 struct vm_run vmrun ; 

285 

286 bzero(&vmrun, sizeof (vmrun)); 

287 vmrun.cpuid = vepyu; 

288 vmrun.rip = rip; 

289 G@ 在 上 期 连载 的 最 后 返回 到 用 户 区 的 ioct1 
290 error = ioctl(ctx->fd, VM_RUN, &vmrun); 又 回 到 了 这 里 

291 bcopy(&vmrun.vm_exit, vmexit, sizeof (struct vm_exit)); @) 把 从 vmm.ko 传 递 过 来 的 vmexit 
2 信息 复制 后 传 回调 用 源 
293 } 


y 代码 清单 2 use.sbin/bhyve/bhyverun.c 
ee (省 略 ) es 


294 static int 


295 vmexit_inout(struct vmctx xctx, struct vm_exit xvme, int xpvcpu) 


296 { 

297/oeeiinteennon: 

2980mimnen tes om ut 
2990m ulmntS nt ea 
BOOTiEEVepDUE 

301 

302 vcpu = xpvcpu 

303 

304 port = vme->u.inout.port; 
305 bytes = vme->u.inout.bytes ; 
306 eax = vme->u.inout.eax; 


@@ 展开 VMExit 发 生 时 vmm.ko 取 得 的 1/0 命 令 模 拟 处 理 所 需 的 信息 
[端口 号 、 访 问 带宽 、 写 入 值 ( 非 读 入 时 )、IV/0 方 向 (in/out )] 
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如 何 构 建 超 级 系统 


正确 理解 虚拟 化 技术 车 2 EE 


308 out = lin; 


es 中 调用 设备 模拟 器 

322 error = emulate_inout(ctx, vcpu, in, port, bytes, &eax, strictio); 

323 if (error == 0 && in) 全 in 命令 的 时 候 ， 把 读 入 的 结果 存 入 客 
324 error = vm_set_register(Cctx，Vvcpu，VM_REG_GUEST_RAX，eax) ; 户 机 的 rax 寄 存 器 。 这 次 解说 的 是 out 
325 命令 ， 不 执行 这 一 分 支 的 程序 

326 if (error == 0) 

327 return (VMEXIT_CONTINUE) ; 

325 IE (7 返回 YMEXIT_CONTINUE 

329 fprintf(stderr, "Unhandled %s%c QOx%04x\n", 

330 Nm nA Oe 

331 bytes == 1 ?pb : (bytes == 237 WwW : '1'), port); 

332 return (vmexit_catch_inout()); 

S830 

334 } 

Ee (省 略 ) ee 

508 static vmexit_handler_t handler[VM_EXITCODE_MAX] = { 

509 EVMSEXITCODE INOUT] = "vmexit inout, (9) 由 于 VMExit 的 EXITCODE 是 VM_EXITCODE_ 
510 [VM_EXITCODE_VMX] = vmexit_vmx, INOUT， 调 用 vmexit_inout() 


511 [LVM_EXITCODE_BOGUS] = vmexit_bogus, 

||2 [VM_EXITCODE_RDMSR] = vmexit_rdmsr, 

5 [VM_EXITCODE_WRMSR] = vmexit_wrmsr., 

514 [VM_EXITCODE_MTRAP] = vmexit_mtrap, 

515 [VM_EXITCODE_PAGING] = vmexit_paging, 

sil [VM_EXITCODE_SPINUP_AP] = vmexit_spinup_ap, 
Sy Ps 


Slomstareevoud 
520 vm_loop(struct vmctx xctx, int vcpu, uint64_t rip) 


S21 { 

ee (省 略 ) ……: @9 在 while 循 环 中 再 次 执行 vm_run()， 客 户 
53200 While cr 机 运行 再 度 开始 

与 33 error = vm_run(Cctx，Vvcpu，rip，&vmexitLvcpuj]y) ; @@ 由 ioct1 返 回 到 这 里 
534 if (error != 0) { 

53 与 /* 

S80 * It is possible that 'vmmctl’' or some other process 

上 5B x has transitioned the vcpu to CANNOT_RUN state right 

538 * before we tried to transition it to RUNNING. 

539 大 

540 x This is expected to be temporary so just retry . 

5 */ 

542 if (errno == EBUSY) 

543 continue; 

544 else 

545 break ; 

546 } 

547 

548 prevcpu = vcpu; 

549 rc = (xhandler[Lvmexit[vcpul.exitcodel)(ctx, &vmexit[Lvcpul], 

550 &vcpu) ; @ 调 用 与 EXITCODE 相应 的 处 理 。 
551 Switen (re) 这 次 按 in/out 命令 引起 的 VMExit 
552 case VMEXIT_SWITCH: 进行 解说 

55 assert(guest_vcpu_mux); 

554 if (vecpuyu == -1) { 

555 stats.cpu_switch_rotate++; 

5 而 vcpu = fbsdrun_get_next_cpu(prevcpu); 

与 57 } else { 

558 stats.cpu_switch_direct++; 

559 } 

560 /* fall through x*/ 

501 case VMEXIT_CONTINUE: 
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第 0 加 用 Inte VT- x 构建 超级 系统 管 3 理 程序 之 六 


用 户 空间 (user land ) 的 |/O 模 拟 


562 rip = vmexit[vcpu].rip + vmexit[vcpu].inst_length; (9 客户 机 的 rip 跳 到 下 一 条 命令 
563 break ; 

564 case VMEXIT_RESTART: 

本 65 rip =" vmexitflvepudl.rip;: 

566 break ; 

567 case VMEXIT_RESET: 

568 exit(0); 

569 default: 

570 ex 

57 10 

572 } 

573 fprintf(stderr, "vm_run error %d, errno %d\n”, error, errno); 
574 } 

ee (省 上 略 )…… 

Sy 


| t. 
me 工作 。 接 到 处 理 请 求 后 ， 调 用 设备 模拟 器 处 


Inout.c 是 模拟 IO 命令 的 程序 。 实 际 上 担 理 程序 。 被 调用 的 处 理 程序 进行 实际 的 模拟 
当 着 管理 各 个 IO 端口 设备 模拟 器 处 理 程 序 的 处 理 。 


有 代码 清 


单 3 usr.sbin/bhyve/inout.c 


a (省 略 )…… 

72 int 

73 emulate_inout(struct vmctx x*ctx, int vcpu, int in, int port, int bytes, 
74 Uint32_t xeax, int strict) 
7 

76 int flags; 

7 Uint32_t mask ; 

78 inout_func_t handler; 

79 void xarg; 

80 

81 assert(port < MAX_IOPORTS ) ; 
82 

83 handler = inout_handlers[port].handler; @) 取出 各 个 端口 号 注册 的 1/0 处 理 程序 
84 

85 if (strict && handler == default_inout) 
86 return (-1); 

87 

88 1 CNR A 

89 switch (bytes) { 

90 case 1: 

91 mask = QOxff; 

92 break; 

9B case 2: 

94 mask = QOxffff; 

95 break ; 

96 default: 

97 mask = QOxffffffff; 

98 break ; 

99 } 

100 xeax = xeax & mask ; 

101 } 

102 


1 


如 何 稳 建 招 级 亲信 ww 


正确 理解 虚拟 化 技术 车 2 EE 


103 flags = inout_handlers[port].flags; 
1064 arg = inout_handlersLport].arg; 


106 if ((in && (flags & IOPORT_F_IN)) || (!in && (flags & IOPORT_F_OUT)) ) 

107 return ((xhandler)(ctx, vcpu, in, port, bytes, eax, arg)); 

108 else 

109 return (-1); (9 取出 各 个 端口 号 注册 的 处 理 程序 


, (0 由 register_inout() 注册 I/0 端 
142 register_inout(struct inout_port xiop) 首 
Ee > ; 口 处 理 程序 


144 assert(iop->port < MAX_IOPORTS); 

145 inout_handlers[iop->port].name = iop->name; 

146 inout_handlers[iop->port].flags = iop->flags; 

147 inout_handlers[iop->port].handler = iop->handler; 
148 inout_handlers[iop->port].arg = iop->arg; 


150 return (0); 


consport.c 0 a 、 
a > Receiver Transmitter ) 模拟 需 后 ， 该 驱动 程序 


consport.c 是 BHyVe 专 用 的 半 虚 拟 化 控制 台 驱 不 再 是 必需 程序 了 。 但 作为 设备 驱动 程序 ， 它 
动 程 序 。 引 入 了 UART(Universal Asynchronous 的 结构 最 价 单 ， 我 们 用 它 来 解说 设备 驱动 程序 。 


有 代码 清单 4 usr.sbin/bhyve/consport.c 


95 static void 
96 ttywrite(unsigned char wb) 


oer 
98 (void) write(STDOUT_FILENO, &wb, 1); (9 ttywrite() 用 write() 向 标准 输出 设备 写字 符 
99 } 
100 


101 static int 
102 console_handler(struct vmctx xctx, int vcpyu, int in, int port, int bytes, 


103 Uint32_t xeax, void xarg) 

104 { 

105 static int opened ; 

106 

107 if (bytes == 2 8&& in) { 

108 x*eax = BVM_CONS_SIG ; 

109 return (0) ; 

lo 光 

1 1 

112 af (bytes != 4) 

ls FEE (= )e 

114 

115 © if (!lopened) { 

116@ ttyopen(); 

ol opened = 1; 

118 } 

119 (9 在 console_handler() 里 ,如果 I/0 的 方向 是 in 则 执行 ttyread()， 如 果 
OECD) 1/0 的 方向 是 out 则 执行 ttywrite()， 对 标准 输入 输出 设备 进行 1/0 处 理 


L112 


用 Intel VT-x 构 建 超级 系统 管理 程序 之 六 


用 户 空 间 ( user land ) 的 1/O 模拟 


121 xeax = ttyread(); 

2 @ 这 次 解说 的 是 执行 out 的 情形 ，eax 里 指定 的 写 操作 
23 ttywrite(xeax); 值 被 传递 给 ttywrite() 

124 

li2500returnn(o.: 

126 3 

127 

128 static struct inout_port consport = { 

129 "bvmcons", 


130 BVYMECONSOMESPORNE 

1 TOPORTEEEINOUWE 

132 console_handler (3 把 注册 的 处 理 程序 指定 为 console_handler() 
133 ys 

134 

185 7Xoila| 

136 init_bvmcons(void) 

下 人 

138 

139 register_inout(&consport); 人 DD 启动 consport 时， 在 这 里 注册 处 理 程序 
140 } 


小 结 ) 现在 ， 有 关 超 级 系统 管理 程序 执行 循环 的 一 系 
列 源 程序 ， 我 们 就 全 都 讲解 完了 。 下 一 期 我 们 


本 期 我 们 解说 了 接收 到 由 1O 合 令 引 起 的 讲解 virtio 的 原理 。 
VMExit 后 ， 在 用 户 区 进行 模拟 处 理 的 源 程序 。 


正和 六 并 


i @ 精读 1 万 行 代码 ， 深 入 理解 操作 系统 原理 


加 。 超级 计算 机 “ 京 "的 L1 缓 存 设计 者 青 柳 隆 宏 经 典 著作 
UniX 内 核 源码 训 析 


[B] 硼 柳 隆 宏 著 
版 中 网 谨 ” 黄 走 周 金玉 市 


Unix 内 核 源码 鹿 要 


本 书 是 一 本 Unix 内 核 源 代码 的 阅读 指南 。 作 者 结合 UNIX V6 已 公开 的 
相关 文档 , 对 其 内 核 源 码 进行 详细 剖析 , 由 在 让 读者 更 深入 地 理解 进程 、 
中 汤 、 块 WO 系统、 文件 系统 、 字 符 WO 系统 、 启 动 系统 等 操作 系统 的 


进 称 中断” 闭 | 作 系统 文件 系统 字符 I/O 系 统 启动 系 丢 
精读 1 万 行 代码 ， 深 入 理解 操作 系统 原理 基本 原理 。 


GA 


本 书 适 合 操作 系统 的 初中 级 学 习 者 阅读 ， 特 别 适 合 通过 大 学 课程 和 其 


ISBN. 978-7-115-34521-9 他 入 门 书 对 操作 系统 有 所 了 解 ,， 但 是 对 具体 细 市 缺乏 深入 理解 的 读者 ， 
定 价 : 79.00 元 以 及 那些 对 操作 系统 的 具体 实现 有 兴趣 的 读者 。 


页 数 : 368 页 
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Universal shell programming 人 研究 所 ”http://www.usp-lab.com 


上 田 隆 一 


(UEDA Ryuichi) 《CD @uecinfo ” 译 / 廊 龙 


使 用 shell 脚 本 


可 以 编写 CGI 脚本 吗 ? 


从 本 期 开始 ， 
言及 的 CGI 脚本 编写 问题 。 
CGI 是 通用 网 关 接 口 (Common Gateway 


我 们 来 谈 一 谈 笔 者 最 初 便 想 


Interface) 的 缩写 ， 人 简 而 言 之 就 是 从 浏览 间 启 
动 Web 服 务 顺 端 程序 的 一 种 技术 。CGI 这 个 词 
实际 上 指 的 是 接口 (Interface)， 所 以 通过 CGI 
执行 的 程序 ， 称 为 CGI 程 序 或 者 CGI 脚 本 ,都 
是 比较 贴切 的 。 不 过 用 脚本 语言 编写 时 ， 叫 做 
CGI 脚本 更 好 些 。 

CGI 程序 可 以 用 任何 语言 编写 。 虽 说 用 C 
语言 编写 也 可 以 , 但 这 个 领域 中 多 使 用 轻 量 
级 语言 (Lightweight Language) 进行 编写 
前 使 用 Perl、PHP 的 多 一 些 , 最近 也 经 党 用 
Ruby、Python 编写 。 

述 语言 再 加 上 shell 脚本 是 本 章 及 以 后 几 
章 我 们 将 探讨 的 内 容 。 经 常 有 人 问 : shell 脚本 
可 以 很 容易 地 使 用 系统 命令 , 安全 性 没 问题 吧 ? 
确实 ，shell 脚 本 的 功能 远 不 只 实现 Web 数据 交 
互 这 样 的 目的 。 而 且 简 短 的 命令 也 能 实现 一 些 
邪恶 之 事 ， 比 如 rm -Rf / (只 有 8 个 字符 !) 等 。 
关于 “是 否 容 易 遭 受 注入 攻击 ”这 个 问题 ， 
笔者 认为 ， 虽 然 在 语言 角度 上 它 和 别 的 语言 没 


0 人 USeraker 
Oo 4 0:47:17 
wh pOglock = B09, nTxL oc 


编写 CGI 脚 本 (1) 一 一 用 标准 输 
出 朵 Web 服务 器 


传输 数据 


什么 大 的 差别 ， 但 小 心 使 用 的 话 ，shell 脚本 反 
而 不 容易 遭受 攻击 。 仅 因为 现在 市 面 上 的 编写 
手册 还 不 成 熟 ， 就 武断 地 认为 用 shell 脚 本 编写 
的 CGI 是 很 危险 的 ， 这 是 不 了 解 shell 脚 本 的 表 
现 。 看 问题 是 不 应 当 带 有 成 见 。 


总 是 谈论 女人 的 人 人， 实际 上 并 不 太 了 解 女 
人 ; 总 是 认 毁 女人 的 人 , 实际 上 完全 不 了 解 女人 。 
一 一 莫 里 斯 : 勒 布 朗 


请 把 这 个 格言 使 用 命令 sed 's/ 女 人 /shell 
脚本 /g ' 执行 一 下 ， 读 一 遍 ， 然 后 再 看 接 下 来 的 


内 容 。 


准备 Apache 


这 次 ,假定 的 环境 是 可 以 运行 bash、Apache 
的 UNIX 系列 操作 系统 。 笔 者 为 了 方便 ， 所 以 
使 用 手边 的 Mac 机 。 关 于 Linux 系统 上 运行 的 
介绍 , 网 上 可 以 查 到 很 多 , 这 里 就 不 详细 说 明了 。 

笔者 也 是 撰写 本 文 时 才 知 道 ，OS X 系 统 
自 带 Apache， 不 用 安装 立即 就 可 以 使 用 。 如 图 
1 所 示 敲 和 命令，Apache 就 能 启动 了 。 

本 连载 的 读者 ， 可 不 用 浏览 器 ， 而 是 像 图 
2 中 用 curl 来 确认 运行 情况 。curl 可 以 通过 选项 
指定 的 URL, 把 获取 到 的 HTML 进行 标准 输出 。 


nT 
pe) 
pe 


eh hod 
[a 
tfs loaded NO 


一 一 用 标准 输出 同 Web 服 务 器 传输 数据 


cufl 一 般 通 过 Linux 发 布 的 安装 包 管 理工 具 就 
可 以 安装 。wget、fetch 也 有 类 似 的 工具 。 


如 图 3 所 示 ， 我 们 来 确认 一 下 CGI 的 存放 
目录 。CGI 程 序 多 存放 在 cgi-bin 目录 下 ,在 cgi- 
bin 下 ， 先 搜索 一 下 配置 文件 (httpd.conf)。 

打开 编辑 器 ， 就 可 以 使 用 编辑 器 的 功能 
行 查找 。 但 是 ， 这 样 的 说 明 步 又 ， 不 如 shell 式 
的 描述 更 容易 理解 。 刚 才 说 的 curl 也 一 样 ， 比 
使 用 浏览 器 的 截图 更 轻松 了 许多 。 当 然 在 交互 
上 花费 的 时 间 还 是 有 差异 的 。 虽 为 题 外 话 ， 但 

这 几 点 实际 上 是 很 重要 的 。 

言 归 正 传 ， 从 查找 结果 可 以 看 到 ，CGI 在 
/Library/WebServer/CGI-Executables/ 下， 是 个 比 
较 繁 琐 的 目录 。 遗 憾 的 是 ， 我 们 就 要 把 CGI 脚 
本 放 到 这 里 。 不 过 要 全 部 记 住 这 个 目录 实在 太 
厅 烦 了 ， 所 以 我 们 如 图 4 那样 ， 在 自己 的 根 目 
录 下 做 一 个 链接 。 反 正 只 有 自己 用 ,顺便 也 把 
所 有 若 改 一 下 。 


CGI 程序 只 是 程序 而 已 


从 现在 开始 进入 正题 。 首 先 要 做 的 就 是 运行 
CGI 程序 。 有 很 多 人 一 听 到 讲 CGI 程 序 就 觉得 是 
很 特别 的 东西 ， 实 际 它 也 没什么 特别 之 外 。 接 下 
来 就 给 大 家 解 开 这 个 疑惑 ， 匈 做 一 个 简单 的 答 试 。 


有 图 3 碍 找 cgi-bin 目录 
$ apachect1l -V | grep conf 


编写 CGI 脚本 (1 ) 


首先 ， 在 目录 /tmp/ 下 建立 一 个 名 为 hoge 
的 文件 。 把 所 有 者 改 为 可 执行 Apache 的 用 户 。 
可 执行 Apache 的 用 户 或 组 通过 如 下 方法 来 查找 。 


$ grep ^User /private/etc/Vapache2/httpd.conf 
User _WWW 
$ grep ^Group /private/etc/apache2/httpd.conf 
Group _www 


找到 用 户 和 组 以 后 ， 用 如 下 方法 更 改 hoge 
所 有 者 。 


$ touch /tmp/hoge 
$ sudo chown _www:_www /tmp/hoge 


然后 把 rm 命令 复制 到 cgi-bin 目录 下 ， 后 


级 是 .cgi。 


$ cp /pin/rm ~/cgi-bin/yrm.cgi 


用 浏览 器 执行 一 下 rm.cgi。 此 时 如 果 使 用 
curl 的 话 看 不 到 效果 ， 所 以 选择 使 用 浏览 需 来 
执行 。 在 地 址 栏 中 输入 http://localhost/cgi-bin/ 


有 图 1 启动 Apache 


$ sudo -s 

# apachect1 start 

# ps cax | grep httpd 

16023 ?3? Ss 0:00.15 httpd 
16024 ?7? 5S 0:00.00 httpd 


有 图 2 使 用 curl 进 行 确认 


$ curl http://localhost 
<htm]l><body><h1>It works!</h1></Vbody></Vhtm1> 


-D SERVER_CONFIG_FILE="/private/etc/apache2/httpd.conf” 


$ cat /private/etc/apache2/httpd.conf | grep cgi-bin 
ScriptAliasMatch “/cgi-bin/((?i:webobjects)).*$) 
#ErrorDocument 404 "/cgi-bin/missing_handler.pl” 


"”V/Library/WebServer/VCGI-Executables/$1” 


y 图 4 建立 根 目 录 上 的 快捷 链接 
$ ln -Ss /Liprary/WebServer/VCGI-Executables/ ./cgi-bin 


$ cd cgi-bin 
$ sudo chown ueda:wheel ./ 


J 


轻松 获取 文本 数据 


大 彻 大 悟 攻 csshe 叫 脚本 ; 


116 


rm.cgl2/tmp/hoge。 

不 过 很 选 眉 ， 浏 览 硕 显示 的 是 如 图 5 所 未 
的 服务 需 内 部 错误 (Internal Server Error )。 

而 且 ， 如 下 所 示 ，/tmp/hoge 无 法 找到 。 


$ ls /tmp/hoge 


ls: /tmp/hoge: No such file or directory 


你 是 不 是 lI 了 一 惊 ? 
到 底 发 生 了 什么 呢 ? 通过 浏览 万 访问 
http://localhost/cgi-bin/rm.cgi?/tmp/hoge， 就 相 


当 于 把 /tmp/hoge 当做 选项 参数 传 给 服务 需 ( 本 
文中 指 我 的 Mac )cgi-bin 目录 下 的 rm.cgi， 从 而 
将 /tmp/hoge 删 除了 。 使 用 ssh 对 远程 服务 硕 执 
行 以 下 命令 是 不 会 发 生 任何 变化 的 : 


$ ssh ' /cgi-bin/rm.cgi /tmp/hoge’ 


其 不 同 也 就 是 不 使 用 22 号 端口 ， 而 是 80 
号 端口 。 不 过 ， 即 使 rm 命令 可 能 会 被 互联 网 


有 图 5 rm.cgi 的 执行 结 


@OOA 500 Internal Server E 


500 lnternal Server Error 


(4 ) 9 localhost/cgi-bin/rm,cglf?/tmp/hoge 
Internal Server Error 


The server encountered an internal error or misco 


Please contact the server administrator, You @exa 
and anything you might have done that may have 


More information about this error may be availab 


V 图 6 最 简单 的 CGI 脚本 


$ cat smallest.cgi 
#!/bin/bash -xv 


echo "Content-Type: text/html” 
echo "” 
echo 鱼 眼 perl 脚 本 


$ chmod +x smallest.cgi 


有 图 7 用 浏览 器 执行 smallest.cgi 的 结果 


| | localhost/cgi-bin/smalles > 


< 了 了 C 
鱼 眼 perl 脚 本 


[| localhost/cgi-bin/smallest.cgi SP 


上 大 量 来 路 不 明 的 人 执行 ， 也 没什么 问题 ， 这 
是 因为 Apache 有 以 下 限定 : 

。 设置 用 户 或 组 来 限定 可 执行 用 户 

。 只 执行 特定 目录 下 的 程序 

。 限定 只 有 已 经 登录 的 后 级 才能 执行 


这 样 的 话 ， 通 过 设置 一 定 的 制约 条 件 来 尽 
可 能 确保 安全 。 

反之 ， 如 果 把 cgi-bin 下 的 程序 都 设置 成 
可 执行 的 ,那么 不 管 是 什么 程序 都 可 以 由 CGI 
启动 。 比 如 rm.cgi 这 种 由 C 语 言 编写 的 脚本 ， 
或 者 传统 的 Perl 编写 的 脚本 都 可 以 运行 。 也 就 
是 说 ，shell 肢 本 也 可 以 运行 。 


编写 CGI shell 脚 本 


下 面 ， 我 们 尝试 用 shell 编 写 CGI 脚 本 。 首 
完 ， 如 图 6 所 示 ， 这 是 最 简单 的 CGI 脚 本 ， 可 
以 在 浏览 器 中 显示 文字 。 这 个 shell 脚 本 没有 什 
么 特别 之 处 ， 在 终端 上 正常 执行 即 可 。 


$ ./smallest.cgi 2> /dev/nul1] 
Content-Type: text/html 


鱼 眼 perl 上 脚本 


在 浏览 器 上 运行 的 话 ,， 结果 如 图 7 所 示 。 
这 个 例子 有 几 点 需要 注意 。 首 先 ，Content- 
Type: text/html 是 HTTP 协 议 规定 的 HTTP 首 
部 。 刚 才 在 浏览 硕 中 执行 rm.cgi 出 错 就 是 因为 
缺少 HITP 首 部 。 浏 览 需 和 Apache 是 通过 HTTP 
协议 进行 交互 的 , Apache (正在 运行 的 CGI 程序 ) 
没有 返回 HITP 首 部 ， 所 以 浏览 硕 就 出 错 了 。 

HTTP 首 部 下 面 的 echo "" 是 为 了 区 分 头 和 
主体 而 设置 的 空 行 。 在 头 的 前 面 不 能 加 其 他 东西 ， 
比如 图 8 中 的 脚本 , 用 浏览 希 执 行 时 是 会 报错 的 。 


编写 CGI 脚本 (1 ) 
一 一 用 标准 输出 向 Web 服务 器 传输 数据 


图 6 的 Content-Type: text/html 意 指 发 一 

送 文 本 形式 的 HTML。 虽 然 实际 上 只 传输 了 一 编写 用 于 输出 的 CGI 脚本 
行文 本 ， 不 过 现在 不 需要 在 这 里 太 纠 结 。 - 
接 下 来 应 该 注意 的 是 ，shell 脚 本 只 是 把 文 | 监 
进行 了 标准 输出 ， 并 没有 对 浏览 器 和 Web 服 Me De 
务 器 做 什么 特别 的 事情 。 这 是 因为 Apache 会 获 既然 已 经 明白 了 可 以 用 shell 脚 本 编写 CGI 
取 shell 脚本 的 输出 并 传 给 浏览 器 。shell 脚本 应 脚本 ， 那 么 我 们 马上 来 写 一 个 试 坛 。 实 用 类 型 
该 做 的 就 是 保证 输出 正确 的 HTTP 首 部 。 这 也 的 例子 我 们 放 在 以 后 的 章节 里 讲解 ， 这 次 先 来 


是 很 典型 的 UNIX 动 作 。 做 一 个 有 趣 的 东西 。 
# 行 (#!/bin/bash ) 市 有 输出 日 志 的 选项 -xv， 首先 ， 被 浏览 器 调用 时 ， 编 写 有 如 下 动作 


日 志 输 出 到 哪里 了 了 呢 ? 实际 上 是 如 图 9 所 的 CGI 脚本 。 
示 ， 被 输出 到 Apache 的 销 误 日 志 里 了 。 


II 。 在 服务 器 端 ， 一 旦 把 字符 串 传 给 CGI 及 
量 级 语言 并 无 不 同 。 区 别 点 在 于 ， 轻 量 级 语言 Pg 
有 便于 使 用 的 库 ， 可 以 很 好 地 封装 与 Web 服务 
人 条 的 直接 交互 。 但 是 ,不 管 是 用 什么 语言 编写 ， CGI 脚本 的 执行 并 不 是 一 内 而 过 ， 而 是 途 
一 般 的 CGI 最 终 都 是 通过 HTTP 输 出 HIML 和 中 会 有 暂停。 这 并 没有 什么 特殊 功用 ， 而 是 为 
JavaScript。 了 能 够 真切 地 感 党 到 它 的 执行 。 那 么 ， 我 们 编 


YY 图 8 HTTP 首 部 前 面 有 东西 时 会 报错 


$ cat dame.cgi 
#!/bin/bash -xv 


olile ll 

echo "Content-Type: text/html” 

echo "”" 

echo 湾岸 python script 

$ curl http://localhost/cgi-bin/dame.cgi 2> /dev/null | head -n 3 
<!DOCTYPE HTML PUBLIC ”-//IETF//DTD HTML 2.0//EN”"> 

<html><head> 

<title>500 Internal Server Error</title> 


图 9 CGI 脚 本 的 标准 错误 输出 都 保存 在 error_log 文 件 里 


$ cat /private/var/log/apache2/error_log 


[Tue Apr 23 :46:14 2013] [error] [client :: #!/bin/bash -Xv 
[Tue Apr 23 :46:14 2013] [error] [client :: 


LTue Apr 23 :46:14 2013] [error] [client :: echo "Content-Type: text/html” 
[LTue Apr 23 :46:14 2013] [error] [client :: +echo “Content-Type: text/html’ 
[Tue Apr 23 :46:14 2013] [error] [client :: echo "” 

[Tue Apr 23 :46:14 2013] [error] [client :: el 

[Tue Apr 23 :46:14 2013] [error] [client :: 
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轻松 获取 文本 数据 


大 彻 大 悟 9<sheil 胸 本 } 
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写 一 个 如 代码 清单 1 的 脚本 。 
第 3 行 的 mkfifo 命令 是 用 来 创建 被 称 作 “ 命 
名 管道 ” 特 丈 文件 的 命令 。“ 命 名 管道 ”正如 其 


和 名， 就 像 一 条 管道 ， 从 一 头 输入 字符 ， 另 一 头 
就 可 以 输出 这 些 字符 。 例 如 ， 


$ echo hoge (et= ls 


上 述 处 理 大 用 命名 管道 编号 ， 就 会 变 成 如 
下 的 形式 : 


/终端 1 

$ cat /tmp/pipe 

/终端 2 

$ echo hoge > /tmp/pipe 


这 样 ， 终 端 1 的 cat 命 令 在 /tmp/pipe 传 来 字 
符 之 前 ， 会 处 于 等 竺 状态， 百 到 终端 2 的 echo 
hoge 被 执行 后 ,， 才 输出 hoge。echo hoge 执 行 


V 代码 清单 1 


01 #!/bin/bash 

02 

03 mkfifo /tmp/pipe 

04 chmod a+w /tmp/pipe 

05 

06 echo "Content-Type: text/html” 
07 echo "” 

08 cat /tmp/pipe 

09 rm /tmp/pipe 


notify.cdgi 


V 代码 清单 2 notify.cgi 


01 #!bin/bash 

02 

03 mkfifo /tmp/pipe 

04 chmod a+w /tmp/pipe 

05 

06 echo "Content-Type: text/plain” 
07 echo "” 

08 cat /tmp/pipe 

09 rm /tmp/pipe 


图 10 输入 的 字符 串 


$ echo '<script>alert("no more XSS!!1”)</script>’' > /tmp/pipe 


有 图 11 浏览 器 弹出 警告 信息 
localhost 上 的 网 页 显示 : 


A no more XSS!! 


| 确定 (0) | 


结束 后 ，cat 也 随 之 结束 。 仔 细 一 想 ， 这 样 的 动 
作 和 普通 的 管道 是 一 样 的 。 不 过 ，/tmp/pipe 不 
用 rm 删除 的 话 就 会 一 直 存在 。 

第 4 行 的 chmod 是 权限 变更 ， 可 以 让 /tmp/ 
pipe 所 有 者 以 外 的 人 也 写 人 字符 。 

接 下 来 , 我 们 尝试 用 浏览 器 调用 一 下 
nofity.cgi。CGI 脚 本 在 cat /tmp/pipe 处 停 下 来 ， 
所 以 浏览 器 也 处 于 等 待 状态 。 

此 时 ， 在 终端 输入 图 10 的 内 容 0。 如 果 弹 
出 图 11 那 样 的 警告 信息 就 说 明成 功 了 。 这 个 例 
子 虽 然 没 有 什么 实际 用 途 ， 但 是 很 有 趣 。 

顺便 说 一 下 , 为 了 证 明 HTTP 首 部 是 有 意 
义 的 , 可 以 把 notifycgi 改 写成 代码 清单 2( 把 
Content-Type 换 成 text/plain), 再 执行 一 遍 试 试看 。 

这 次 ， 笔 者 认为 如 果 是 正规 的 浏览 器 ， 浏 


览 饼 上 会 显示 <Script>alert(“no more XSS”)</ 


script > 这 样 的 字符 串 。 
“人 > 下 载 文件 


既然 已 经 谈 及 HTTP 首 部 ,那么 我 们 最 后 
来 谈 一 谈 文件 的 下 载 。 比 如 ， 可 以 执行 下 载 大 
家 都 喜欢 的 Excel 文 件 的 CGI 脚本 ， 如 代码 清 
单 3 所 示 。 

第 6 行 application/octet-stream 是 指 将 以 二 
进 制 形式 传输 。 第 7 行 是 指 保 存 为 名 为 hoge 
xlsX 的 文件 。 第 8 行 是 指 输出 变量 LENGTH 所 
指定 的 长 度 。 

实际 上 ， 发 送 文 件 发 到 浏览 器 的 是 ， 第 10 
行 中 我 们 所 熟悉 的 cat 命令。cat 命 令 不 区 分 文 
本 和 二 进 制 ， 如 果 进 行 区 分 ， 就 不 能 和 其 他 命 
令 一 起 使 用 了 。 


OQ 这 里 需要 注意 ， 如 果 不 写 /tmp/pipe 的 话 ， 就 会 生成 一 个 
名 为 /tmp/pipe 的 普通 的 文件 。 


一 一 用 标准 输出 向 Web 服 务 器 传输 数据 


文件 存在 的 话 ， 所 有 的 文件 都 会 被 下 载 下 
来 ,但 是 HTTP 首 部 要 相应 做 一 些微 调 。 比 如 ， 
如 果 想 用 浏览 器 直接 观看 mpeg 文 件 ， 就 需要 
编写 代码 清单 4 中 的 脚本 。 

以 笔者 平时 使 用 的 浏览 絮 (Mac 的 Google 
Chrome 和 Firefox) 为 例 ， 脚 本 会 启动 图 12 那 
样 的 浏览 器 插件 ， 播 放 动 画 。 

若 在 头 上 加 上 Content-Disposition: attachment; 
filename="hoge.mpeg" 的 话 ， 就 会 被 询问 是 否 
把 文件 作为 可 再 生 文件 保存 起 来 ， 此 时 可 以 不 
进行 播放 ， 直 接 将 文件 保存 起 来 。 

关于 HTTP 首 部 的 知识 , 笔者 所 知 大 致 如 此 。 
如 果 在 其 他 语言 中 ， 间 接地 操作 过 HTTP 首部， 
也 应 该 能 很 好 地 控制 shell 脚 本 吧 。 


V 代码 清单 3 执行 下 载 文件 的 CGI 脚本 


编写 CGI 脚 本 (1) 


本 章 主 要 介绍 了 使 用 shell 脚本 编写 CGI 脚 
本 的 方法 ,尤其 是 关于 输出 方面 。 本 章 最 重 
要 的 内 容 是 , 经 由 Apache 使 用 标准 输出 向 
浏览 器 传输 内 容 。 这 些 内 容 ， 也 是 互联 网 与 
UNIX 共 同 发 展 的 痕迹 。 与 其 说 是 痕迹 ， 不 如 
说 是 必然 的 发 展 。 标 准 输入 输出 ， 没 有 比 这 
更 抽象 的 接口 了 ， 对 此 ,首先 应 该 探讨 的 是 
其 使 用 方法 。 

下 一 章 ， 我 们 将 用 CGI 脚本 做 些 东 西 ， 并 
使 用 到 POST 、GET 设 置 。 


01 #!/bin/bash -xv 

02 

03 FILE=/tmp/book1 .xlsx 

04 LENGTH=$ (wc -ce $FILE | awk ’'{print $1}') 

05 

06 echo "Content-Type: application/octet-stream" 


07 echo 'Content-Disposition: attachment; filename="hoge.xlsx”’ 


08 echo "Content-Length: $LENGTH” 
09 echo 


10 cat $FILE 


y 代码 清单 4 观看 mpeg 文件 的 CGI 脚本 
(download_movie.cgi ) 


01 #!bin/bash 

02 

03 mkfifo /tmp/pipe 

04 chmod a+w /tmp/pipe 

05 

06 echo "Content-Type: text/plain” 
07 echo ”” 

08 cat /tmp/pipe 

09 rm /tmp/pipe 


12 正确 书写 HTTP 首 部 的 话 浏 览 器 束 会 有 适当 的 动作 


司 
上 OO [1 localhost/cgi-bin/downlc X \ | = 


1 


| 
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端点 模型 的 验证 
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一 7 VXLAN、 NNAC1 RS 四 独 目 扩展 问题 


一 要 二: ee 
< 去 习 
- BB” 国 匡 < 


< 从 Fabric 到 端点 模型 < 


以 前 ， 云 平台 上 的 网 络 虚 拟 化 主要 有 
两 个 目的 。 一 是 很 多 租户 (tanent) 在 一 个 
网 络 系统 上 运行 时 ,可 以 生成 超过 基于 
IEEE802.1Q 的 最 大 VLAN 个 数 (4094) 的 
租户 段 。 二 是 形成 一 个 多 租户 虚拟 机 (后 称 
VM: Virtual Machine ) 下 ， 无 需 变 更 IP 地 址 
和 MAC 地 址 ， 就 能 在 IaaS 平 台 上 自由 移动 、 
启动 、 停 止 的 网 络 。 

上 上 回 提 到 使 用 Fabric 模 型 实现 网 络 虚拟 
化 ， 这 种 方法 在 数据 链 路 层 提供 了 复 用 和 虚 
拟 段 ， 但 不 文 持 网 络 层 以 上 的 虚拟 化 。 而 端 
点 模型 (Endpoint Model) 则 能 虚拟 化 网 络 层 
以 上 的 层级 ， 解 决 VLAN 的 上 限 问 题 ， 从 而 
形成 灵活 的 网 络 段 。 

端点 模型 技术 在 活用 现存 物理 网 络 ， 又 
不 依赖 于 物理 拓扑 的 条 件 下 ， 即 可 形成 了 
逻辑 上 的 网 络 段 。 大 多 数 情 况 下 ， 指 在 现 
有 的 卫 网 络 上 ， 使 用 隧道 技术 ， 礁 加 以 太 


a 国人 >: 


网 L2 段 。 使 用 隧道 技术 ,不仅 可 以 形成 二 
加 网 ， 还 可 以 重新 定义 隧道 首部 中 识别 租 
户 段 的 ID,， 使 生成 含有 4094 以 上 个 租户 段 
成 为 可 能 。 

一 般 来 说 ， 隧 道 的 端点 有 两 种 形式 : 物 
理 机 上 的 宿主 管理 器 (hypervisor) 和 物理 交 
换 机 (图 1)。 把 物理 交换 机 作为 隧道 的 端点 
来 使 用 的 话 ， 会 在 投入 产 出 比 上 出 现 问题 ， 
所 以 ,大 多 情况 下 仅 作 为 物理 网 络 和 虚拟 
网 络 之 间 的 网 关 (gateway ) 来 使 用 。 还 有 另 
一 种 端点 模型 ， 即 把 虚拟 交换 机 的 工作 交 
给 网 卡 (NIC ) 或 相 邻 交换 机 中 协助 处 理 任 
务 的 VEB (Virtual Ethernet Bridge) 和 VEPA 


(Virtual Ethernet Port Aggregator)， 但 因 其 不 
能 扩展 VLAN 个 数 的 上 限 ， 也 不 能 形成 L2 
登 如 ， 所 以 只 能 在 这 里 被 含 弃 掉 了 。 

现在 具有 代表 性 的 端点 模型 协议 有 : 
VXLAN(Virtual eXtensible Local Area 


Network)、NVGRE (Network Virtualization 
using Generic Routing Encapsulation ) 、STT 


( Stateless Transport Tunneling )。 和 上 回 一 样 ， 


我 们 来 讨论 一 下 这 3 种 协议 的 概要 、 缺 点 及 


致命 的 缺陷 。 


VXLAN 


8 


VXLAN 是 由 VMware、Cisco System、 


Alista、Broadcom 、Citrix Systems 和 Red Hat 
这 6 家 公司 提出 的 虚拟 网 络 协议 。 第 一 份 
IETF 草案 于 2011 年 8 月 公布 。 如 图 2 所 示 ， 
VXLAN 把 原始 的 Ethernet 帧 封装 到 UDP 包 
中 ,使 用 现 有 的 全 网 进行 传输 ,同时 ,使 
用 VXLAN 专 有 头 中 
24 位 长 的 段 D(VNI: 
VXLAN Network ID), 
从 理论 上 把 VLAN 个 数 
提高 到 1600 万 以 上 。 
VXLAN 封装 功能 
使 用 了 内 核 UDP 服 务 ， 
既 可 在 内 核 组 装 ， 又 可 
在 用 户 应 用 程序 里 实现 。 
从 性 能 上 考虑 ， 在 内 核 
里 实现 会 更 优 ， 但 由 于 
对 UDP 服务 的 消耗 几 


有 图 1 端点 模型 


端点 模型 的 验证 


乎 可 忽略 不 计 ， 从 实现 方便 和 开发 省 时 的 
层面 考虑 ， 在 用 户 应 用 程序 里 实现 也 没有 
问题 。 
事实 上 ，VXLAN 协 议 的 首部 只 含有 标 
志 位 和 VNI， 以 隧道 处 理 的 消耗 也 非常 低 。 
并 且 , 虽然 VXLAN 首部 是 新 定义 的 格式 ， 
但 因为 是 在 UDP 载荷 里 ， 所 以 在 互联 网 协 
议 栈 上 来 看 , 可 以 被 看 做 是 应 用 数据 。 因 此 ， 
VXLAN 帧 对 路 人 径 上 经 由 网 络 设备 的 转发 没 
影响 ， 物 理 服 务 硕 的 网 卡 、 现 有 的 物理 网 
络 设备 、NAT 和 防火 墙 等 网 络 组 成 元 素 都 
可 以 照常 使 用 。 


图 2 VXLAN 帧 与 头 部 


Outer Ethernet Outer IP UDP VXLAN 
首部 IP 首 部 首部 首部 


8bit 24bit 


VXLAN 载 荷 
(Inner Ethernet 怖 ) 


24bit 8bit 
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可 以 使 用 SDN 吗 ? 应 该 使 用 SDN 吗 ? 


网 络 虚 拟 化 的 陷 阶 
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VY 图 3 使 用 IP 分 片 进行 传输 


Ethernet 首 部 本 
14byte(18byte) 载 从 1500byte 


UDP IVXLAN 
也 人 点 ! 


Ethernet IP UDP |VXLAN 
首 异 省 生 了 本 占 


和 MTU 的 问题 站 名 


隧道 协议 中 , 将 UDP 与 VXLAN 加 入 到 传 
输 中 的 Ethernet 帧 载 信里 时 ， 硅 原始 Ethernet 
帧 大 小 为 1500 字 市 , 就 无 法 共存 于 一 个 
Ethernet 载 从 里 。 所 以 长 1500 字 市 的 原始 
Ethernet 帧 就 要 被 分 割 成 多 个 Ethernet 帧 来 传 
输 (图 3)。 

关于 复原 原始 帧 ， 通 过 卫 层 面 的 组 装 ， 
就 能 一 定 程度 上 保证 UDP 层面 的 校 验 。 但 
特 云 平台 上 传输 的 帧 ， 几 乎 都 是 载荷 1300 
字 节 ， 这 可 能 对 网 络 性 能 有 显著 影响 。 网 络 
设备 端口 性 能 一 般 用 发 送 接收 的 数据 量 来 衡 
量 ， 转 发 性 能 依赖 于 包 的 数量 。 换 名 话说 ， 
机 器 内 部 处 理 转发 ， 即 是 处 理 各 个 协议 层 的 
首部 ， 并 决定 转发 地 址 接口 。 知 原始 帧 经 常 
被 分 割 为 两 份 进行 传输 ， 简 单 来 说 ， 就 会 导 
致 机 器 的 转发 性 能 被 降低 了 一 羊 。 

VXLAN 供 应 商 针对 他 分 片 化 问题 ， 推 
荐 如 下 处 理 : 增 大 物理 网 络 的 MTU, 使 
VM 能 识别 的 MIU 上 限 为 1600 字 节 以 上 ; 


Ethernet IP Ethe 足 " 
首部 首部 | 剩余 部 分 


或 设置 各 个 VM 的 MTU 为 1400 字 节 。 虽 然 
有 文 持 提 高 Ethernet MTU 大 小 的 设备 , 但 
期 待 所 有 的 交换 机 和 路 由 需 都 支持 设置 是 
不 现实 的 。 

在 物理 网 络 上 增 大 文 持 的 MTU， 会 一 
定 程 度 上 造成 数据 链 路 协议 兼容 性 和 设备 投 
资 成 本 上 的 困难 。 比 较 现 实 的 方案 是 在 VM 
上 缩小 MTU。 这 种 情况 下 ， 可 以 把 所 有 虚 
拟 机 OS 镜像 ， 设 定 成 新 的 MTU 大小， 或 者 
使 用 Chef 管 理工 具 在 搭建 VM 时 调整 MTU。 
不 管 使 用 哪个 方法 ， 为 了 将 运行 适 配 稳定 ， 
需要 花费 很 多 的 工夫 和 成 本 。 


NVGRE 


A 


NVGRE 是 Microsoft、Alista、Intel、 


BS 


Dell、HP、Broadcom 和 Emulex 这 7 家 公司 提 
出 的 协议 。 差 不 多 与 VXLAN 同时 期 在 IETF 
草案 中 公布 。NVGRE 是 一 项 虚拟 网 络 实现 
技术 ， 它 基于 对 RFC2784 和 REFC2890 下 标准 
化 GRE(Generic Routing Encapsultation ) 协议 


图 4 NVGRE 帧 与 头 部 


Outer Ethernet Outer IP NVGRE NVGRE FCS 
首部 首部 首部 载 答 


4bit- ~ 9bit 


SD. 


C K | S 
0 1 |0 


3bit 


Protocol Type| VSID FlowID 
/ NN 


端点 模型 的 验证 


~ 
EN a 
~ 
™— 
Sy 
= 


16bit 24bit- ~ ~-- 8bit _ 


key option 域 的 扩大 解释 。NVGRE 把 VM 发 
送 的 Ethernet 帧 和 NVGRE 首部、 传输 用 他 首 
部 一 起 封装 ， 并 通过 物理 网 络 进行 传输 。 

如 前 所 述 ，NVGRE 与 GRE 的 首部 格式 
完全 相同 。 首 部 的 前 4 位 标志 位 从 左 到 右 为 
校 验 位 (checksum bit)、 未 使 用 、key 位 (key 
bit) 和 序列 位 (sequence bit) 用 来 表示 选项 
的 设置 与 否 。NVGRE 中 只 有 key 位 设置 为 1， 
其 他 都 设置 为 0( 图 4)。 

32 位 的 key option 域 里 ， 前 24 位 被 用 来 
代表 标示 NVGRE 段 的 VSID (Virtual Subnet 
ID)。 这 相当 于 VXLAN 里 的 VNI。 后面 
8 位 定义 了 物理 网 络 中 ECMP 的 flow id。 
NVGRE 只 在 key option 的 解释 上 和 GRE 
不 同 ,， 其 他 的 诸如 格式 、 协 议 号 和 GRE 一 
模 一 样 。 因 此 ， 对 于 网 络 设备 和 OS 来 说 ， 
GRE 包 和 NVGRE 包 没有 任何 区 别 。 所 以 ， 
现 有 的 网 络 设备 和 服务 器 的 网 卡 、OS 的 
Ethernet 和 IP 驱动 都 不 需要 做 任何 修改 。 

但 是 ，GRE 一 般 是 在 OS 的 内 核 进 行 处 
理 ,， 为 了 支持 NVGRE 协 议 ， 必 须 修改 内 核 
或 答 主 管理 带 的 源 代码 ， 和 VXLAN 相 比 ， 
实现 和 维护 的 成 本 大 大 增加 。 


站 名 校 验 问题 站 名 


NVGRE 上 必然 也 存在 和 MTU 相关 的 
问题 ， 且 与 其 他 协议 相 比 ， 问 题 更 严重 。 假 
定 出 口 卫 首部 长 度 为 基准 的 20 字 节 ， 包 含 
GRE 首 部 的 卫 载 荷 超过 1481 字 节 时 ， 必 然 
会 在 发 送 方 产生 分 片 化 。 接 收 方 会 对 分 割 后 
的 卫 包 进行 重新 组 朔 ， 但 因为 在 NVGRE 首 
部 不 包含 校 验 option， 也 就 没有 办 法 确认 复 
原 后 的 卫 载 傈 的 正确 性 了 。 

一 般 在 Ethernet 帧 的 最 后 面 ， 会 有 一 个 
FCS ( 帧 检验 序列 ，Frame Check Sequence ) 
来 检验 数据 的 正确 性 。 这 个 FCS( 大 多 数 情 
况 下 ) 都 是 通过 网 卡 使 用 便 件 进行 处 理 的 ， 
网 卡 把 FCS 去 除 后 交 给 上 一 层 的 驱动 ， 或 者 
上 一 层 的 驱动 把 没有 FCS 的 帧 交 给 网 卡 。 
此 ,在 宿主 管理 器 或 VM 上 不 能 检查 使 用 了 
FCS 原始 由 的 正确 性 。 这 样 也 就 不 能 保证 
NVGRE 恢 复 后 的 正确 性 ， 万 一 在 传输 过 程 
中 帧 中 混入 了 杂音 被 破坏 ， 这 个 受 损 的 帧 就 
这 样 交付 给 VM 的 话 , 可 能 会 使 VM 发生 故障 。 

现在 ， 实 现 了 NVGRE 的 微软 的 Hyper-V 
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可 以 使 用 SDN 吗 ? 应 该 使 用 SDN 吗 ? 


网 络 虚 拟 化 的 陷阱 


里 ， 从 VM 发 送出 的 帧 负载 各 为 


1500, 会 在 返回 错误 消息 “ICMP 
Datagram too big” 的 同 时 , 通 
知 VM 一 个 可 传送 的 MTU 大 小 
(例如 1400 字 市 )， 避免 在 传输 
NVGRE 包 的 过 程 中 出 现 分 斤 化 。 

和 VXLAN 一 样 ， 对 于 MTU 
问题 ,可 以 使 用 工具 把 所 有 


Windows, 


RHEL, 
CentOS 


1500byte MTU DF=1 


ICMP error “Datagram too big 
Type=3, code=4 
Next-hop MTU = 1400byte 


Hyper-V 
(NVGRE NVE) 


1400byte MTU DF =1 


byte= 字 节 
Next-hop= 下 一 跳 
error= 错 误 


VM 镜 像 的 MTU 调 整 为 合适 

的 值 ， 或 者 统一 使 用 已 经 实现 了 NVGRE 和 
MTU 调整 的 微软 产品 。 不 管 哪 一 个 都 会 增 
加 使 用 成 本 ， 可 能 也 会 形成 受制 于 一 家 厂商 
的 情况 。 


ES 


STT 


8 


STT 是 NVP( 网 络 虚 拟 平 台 ，Network 


Virtualization Platform ) 上 实现 的 独立 隧道 
协议 ， 由 被 VMware 收购 的 Nicira 所 开发 。 
2012 年 1 月 作为 IETF 草 案 公 布 后 ， 成 为 了 
开放 协议 。STT 使 用 TCP 包 ， 把 最 大 64 KB 
载 何 以 障 拓 化 的 方式 ， 在 3 层 网 络 上 进行 传 
输 ， 从 而 搭建 了 一 个 虚拟 的 车 加 网 络 。 

其 他 的 端点 模型 以 原始 Ethernet 帧 作为 
载荷 为 前 提 ，Ethernet 之 外 ，STT 还 支持 帧 
中 继 、ATM 这 样 更 大 的 载 集 数据 链 路 帧 。 
但 是 ， 云 平台 和 数据 中 心 内 基本 上 都 是 通过 
Ethernet 来 使 用 网 络 ，64 KB 这 样 的 载荷 长 
度 基 本 没有 意义 。 这 个 最 大 64 KB 的 值 ， 是 
由 后 面 会 提 到 的 16 位 STT 段 位 移 (segment 
offset) 值 所 确定 的 ， 并 不 是 通信 性 能 和 各 个 
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协议 的 最 大 MTU 大 小 所 决定 的 。 

STT 中 ， 箱 主管 理 需 把 从 VM 处 获得 的 
帧 首先 用 STT 首 部 进行 封装 , 制作 成 STT 帧 。 
接着 把 STT 帧 分 割 成 可 在 物理 网 络 上 传输 
的 片段 ， 每 个 片段 都 用 扩展 TCP 首 部 进行 
封装 (图 6)。 分 段 后 ， 这 些 片段 称 为 STT 段 
(segment)。STT 段 会 继续 根据 物理 网 络 相关 
的 卫 包 进行 封装， 并 从 发 送 方 的 物理 机 天 
传输 到 接收 方 虚 拟 机 所 在 的 物理 机 器 。 

与 VXLAN、NVGRE 相 比 ，STT 首 部 构 
造 更 加 复杂 。 如 图 7 所 示 , 含有 版 本 号 、 标 
志 位 、L4 偏 移 量 、 最 大 上段 长 、PCP、V 位、 
VLAN ID 和 上 下 文人 DD 等 信息 。64 位 的 上 下 
文 ID 一 般 用 来 作 租户 段 的 标识 符 ， 它 的 作 
用 不 仅 限 于 租户 段 ， 还 定义 了 通用 ID， 以 
指示 收 到 STT 帧 端点 时 应 该 进行 的 处 理 。 虽 
然 和 VXLAN 的 VNI、NVGRE 的 VSID 作 用 
相同 ， 但 对 虚拟 网 络 段 ，STT 并 没有 规定 以 
一 一 对 应 的 形式 分 配 。 或 者 说 ， 可 能 多 个 段 
Sp TD TA 
文 ID， 也 可 能 发 往 同 一 个 租户 的 帧 使 用 不 
同 的 处 理 方式 。 

封装 STT 段 的 扩展 TCP 首 部 格式 与 通常 


有 图 6 ”STT 封装 序列 


端点 模型 的 验证 
一 一 VXLAN、NVGRE、STT、 独 自 扩展 问题 


Ethernet 帧 Inner Ethernet| Inner IP TCP/UDP a 
1 | 
| | 
帧 首部 载荷 
BS 
`、 、、 We 
\ / S$ 4 
段 形式 的 首部 | 首部 载荷 (1) 形式 的 首部 载荷 (2) 
Pe ~、 
传输 用 TCP STT TCP STT 
IP 包 首部 | 形式 的 首部 | 首部 载荷 (1) 首部 | 形式 的 首部 载荷 (2) 
/ 
格式 相同 , 只 是 RFC793 定 图 7 STT 首 部 格式 
/ 和 


义 下 的 TCP 头 序列 号 和 响应 
确认 序号 域 , 会 被 用 来 表示 
STT 帧 长 (Frame Length)、 
STT 段 俩 移 (segment offset) 
和 STT 帧 标识 符 (Frame 
Identification )， 以 执行 独立 的 
处 理 (图 8)。STT 帧 标识 符 以 
帧 为 单位 进行 分 配 ，STT 段 
按照 底层 网 络 能 传输 的 大 小 
进行 分 割 , 在 STT 段 被 重新 
组 朔 时 ， 这 个 标识 符 可 以 区 
分 帧 的 段 。 

扩展 TCP 首 部 中 的 6 位 
标志 位 域 和 RFC793 中 的 定义 
相同 ， 表 示 应 答 序号 有 效 的 
ACK 位 和 表示 将 接收 数据 下 
接 递交 给 上 层 应 用 的 PSH 位 
恒 党 设置 为 1， 其 他 设置 为 0。 

STT 的 载荷 长 度 可 达 


0 1 2 3 
01234567890123456789012345678901 


Version (8bit) | Flags (8bit) |L4 Offset (8bit) |Reserved (8bit) 
Max. Segment Size (16bit) VLAN ID (12bit) 


Context ID (24bit) 


Padding (16bit) 


N 7 


了 图 8 扩展 TCP 首 部 格式 
SS 
0 1 2 3 
01234567890123456789012345678901 


STT Segment Payload 


,2 
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64 KB， 可 以 完全 被 容纳 最 大 长 度 为 1514 
字 节 的 IEEE802.3 帧 和 最 大 长 度 为 1518 字 
节 的 IEEE802.1Q 帧 ， 乍 看 起 来 好 像 MTU 
问题 似乎 不 存在 了 ，STT 帧 在 使 用 TCP 进 
行 封 装 时 , 会 被 分 割 成 底层 网 络 的 MSS 
(最 大 段 长 ) 所 限制 的 大 小 ,底层 网 络 是 
Ethernet IP 的 话 ， 最 终 会 在 IP 层 进行 分 片 。 
因此 , 与 VXLAN、NVGRE 一 样 ，STT 也 
不 能 避免 因为 帧 分 片 所 导致 的 网 络 性 能 降低 。 

但 是 ，STT 存 在 男 一 个 致命 缺陷。VXLAN 
的 隧道 处 理 ， 事实 上 只 处 理 含 标志 位 和 VNI 
的 VXLAN 首部 和 UDP 首部 。NVGRE 的 首部 ， 
是 在 VXLAN 的 基础 上 , 添加 了 版 本 、 协 议 
类 型 、flowid， 因 为 沿用 了 原来 的 GRE 首 部 ， 
所 以 不 需要 VXLAN 的 UDP 这 样 的 传输 层 头 
部 ， 处 理 也 更 简便 。 这 使 得 NVGRE 也 可 以 有 
类 似 于 VXLAN 的 处 理 步 又 了 。 

如 图 7 所 示 ，STT 首 部 格式 的 内 容 比 
VXLAN 和 NVGRE 更 加 复杂 , 与 VXLAN 
相 比 ， 又 多 了 版 本 、L4 偏 移 量 、 最 大 段 长 、 
PCP 和 V 位 、VLAN ID 域 , 虚拟 网 络 接口 
需要 处 理 的 域 是 VXLAN 的 两 倍 以 上 。 并 且 
STT 段 使 用 TCP 首部 进行 封装 ，TCP 首 部 的 
处 理 负 和 价 远 不 如 UDP。 

因此 ，STT 草 案 中 ,提出 了 把 TCP 首 部 
的 处 理 交 给 网 卡 来 处 理 ， 以 此 来 避免 性 能 降 
低 。 换 句 话 说 ， 因 协议 处 理 负 耸 很 大 ， 所 以 
STT 是 以 使 用 硬件 来 解决 此 缺陷 为 前 提 而 设 
| Ys 

这 样 义 会 有 新 的 问题 。STT 段 使 用 扩展 
TCP 首 部 进行 的 封 庚 ， 并 不 是 RFC793 中 标 
准 化 的 完整 TCP， 只 是 使 用 了 了 TCP 形式 的 独 


立 自 部 。NVGRE 中， 因为 沿用 了 已 标准 化 
的 GRE 格 式 , 传输 路 径 中 翻译 GRE 首 部 的 
节点 ， 在 处 理 通过 的 帧 时 ， 也 不 会 产生 矛盾 。 
但 是 ， 含 有 扩展 TCP 首 部 的 STT 段 的 协议 号 
(Protocol Number) 使 用 的 是 和 普通 TCP 一 样 
的 6 号 ， 但 并 不 和 标准 的 TCP 兼 容 ， 传 输 路 
径 中 的 节点 在 解析 TCP 首部 时 ， 可 能 会 因为 
首部 内 容 不 符合 TCP 标 准 ， 而 将 它 废弃 掉 。 
这 样 ， 分 割 后 的 STT 帧 不 能 在 接收 方 重新 组 
装 ， 整 个 帧 就 可 能 无 法 全 部 传输 到 接收 方 。 

STT 草案 中 也 意识 到 了 这 个 问题 ， 它 上 暗 
示 道 ， 以 后 会 把 STT 段 的 协议 号 和 TCP 的 
区 别 开 来 ， 分 配 一 个 新 协议 号 。 但 是 ， 如 果 
STT 段 的 协议 号 和 TCP 的 不 一 样 ， 就 无 法 使 
用 网 卡 来 处 理 TCP 首 部 了 。STT 协 议 最 初 的 
设计 ， 是 以 通过 使 用 网 卡 硬件 处 理 TCP 首 
部 来 避免 性 能 降低 为 大 前 提 的 ， 引 入 其 他 协 
议 号 的 话 ， 必 须 承受 网 络 性 能 降低 的 后 果 。 
人 否则， 就 需要 所 有 可 能 会 处 理 STT 的 网 卡 都 
在 人 硬件 层面 实现 处 理 STT 的 功能 ， 想 必 不 是 
所 有 的 生产 厂商 都 会 答应 这 个 条 件 吧 。 

并 且 ， 把 TCP 的 处 理 都 交 给 网 卡 也 存在 
问题 。 网 卡 不 能 像 CPU 那样 精确 快速 地 执 
行 中 断 的 啊 应 和 人 处理。 因此 ， 当 OS 和 宿主 
管理 带 把 协议 处 理 转交 给 网 卡 ， 网 卡 在 处 理 
完成 变 为 ready 状 态 前 ， 可 能 无 法 响应 中 断 。 
因此 ，CPU、 和 宿主 管理 占 、Guest os 等 部 分 
的 中 汤 和 上 下 文 切换 (context switch)， 会 和 
网 卡 控制 器 时 序 (timing) 产生 差异 ,可 能 
会 导致 网 络 操作 堆积 。 这 个 问题 的 传统 解决 
方式 有 如 下 选择 : 有 意 关 闭 网 卡 硬件 处 理 ; 
导 和 人 更 高 效 的 驱动 ; 蔡 换 网 卡 这 样 的 选项 。 


但 在 数 千 台 、 数 万 台 设 备 构建 而 成 的 云 IaaS 
平台 的 所 有 网 卡 和 和 宿主 管理 大 、Guest os、 
应 用 程序 间 进 行 检查 是 非常 耗费 精力 的 。 

或 者 说 ， 使 用 STT 的 网 络 虚拟 化 ， 效 
率 上 可 能 比 VXLAN 和 NVGRE 更 低 一 些 ， 
这 个 低下 的 效率 所 换 来 的 是 ， 只 有 64 位 上 
下 文 ID 才能 带 来 的 几乎 无 限 的 租户 段 。 
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各 个 端点 模型 共同 的 致命 缺陷 ， 存 在 于 
VM 之 间 通 信 开 始 前 的 部 分 。 在 PP 网 上 构建 
的 县 加 网 络 端 点 模型 里 ， 缺 少将 Mac 地 址 和 
PP 地 址 对 应 起 来 的 地 址 解析 方法 。IPv4 的 
ARP 使 用 广播 来 完成 地 址 解析 ， 对 加 网 络 
上 基本 都 是 建立 P2?P 隧 道 ， 因 而 有 时 不 能 进 
行 广播 。 所 以 , 在 VXLAN、NVGRE、STT 
的 草案 中 , 建议 使 用 多 播 组 来 完成 解析 方式 。 

在 目的 为 安全 隔离 各 个 租户 间 的 流量 的 
虚拟 网 络 上 ， 使 用 一 个 多 播 组 来 完成 所 有 租 
户 的 地 址 解析 ， 就 有 点 本 未 倒置 了 。 一 般 是 
以 租户 为 单位 进行 分 配 多 播 组 。 或 者 ， 端 点 
模型 的 导入 必须 有 4096 个 以 上 的 多 播 组 在 
运行 。 想必 管 理 过 4000 个 以 上 多 播 组 的 工 
程 师 应 该 也 很 小 有 了 吧 。 至 少 笔者 是 无 法 想象 。 


端点 模型 的 验证 


在 已 经 问世 的 VMware 和 微软 的 实际 应 
用 中 , 已经 有 不 少 可 以 管理 IaaS 平 台 全 体 的 
Orchestrator 和 Federator,， 或 者 通过 SDN 控 
制 器 来 完成 PP 和 MAC 的 地 址 解析 。 

并 且 ， 端 点 模型 是 在 物理 网 络 上 使 用 隧 
道 形成 2 链接 厂 加 的 网 络 虚拟 化 技术 ,不 
论 使 用 哪 种 方式 ， 一 般 来 说 在 附加 的 协议 头 
和 分 片 化 处 理 上 都 会 发 生 通 信 消 耗 ， 导 致 网 
络 性 能 降低 。 因 此 ， 端 点 模型 的 虚拟 化 技术 
是 不 能 提高 网 络 的 性 能 的 。 

如 采 性 能 不 仅 是 从 传输 速度 和 传送 量 来 
考量 ， 还 从 能 否 灵 活 快速 地 形成 拓扑 来 评价 
的 话 ， 就 不 是 上 面 的 结论 了 。 

比 起 服务 器 间 、 应 用 之 间 的 通信 速度 、 
数据 量 ， 灵 活 快 速 地 形成 租户 段 ， 更 高 效 地 
维护 系统 整体 ， 应 该 也 是 非常 实用 的 技术 。 

使 用 端点 模型 的 网 络 虚 拟 化 更 适合 如 下 
环境 : 网 络 传输 速度 和 吞吐 量 并 没有 那么 重 
要 ,应 优先 快速 添加 、 删 除 、 修 改 租户 的 
L120xs 

人 们 很 容易 陷入 一 种 错觉 。 即 网 络 虚拟 
化 后 ， 一 切 问题 就 都 迎刃而解 ， 应 该 先 充分 
理解 和 调查 各 个 技术 的 特点 、 应 用 的 发 展 情 
况 ， 以 及 环境 中 自己 最 看 重 的 因素 ， 然 后 再 
来 判断 是 否 应 该 引入 这 项 技术 。 


Pg 


Debian 7.0 
“Whée 


大 家 期 待 已 久 的 Debian 7.0“Wheezy” 终 
于 在 5 月 4 日 顺利 发 布 。 其 安装 要 点 请 参考 安 
装 手册 ， 升 级 时 的 注意 事项 请 参考 版 本 注 
释 2。 本 文 将 介绍 Wheezy 的 更 新 内 容 和 背景 。 


(9 增加 了 支持 的 架构 


本 次 Debian 的 更 新 依然 会 增加 其 支持 
的 架构 的 种 类 。 主 要 增加 了 其 对 armhf 和 
s390x 两 种 架构 的 文 持 。 虽 然 各 位 读者 很 少 
有 机 会 能 够 接触 到 s390x 这 样 的 大 型 机 可 
构 ， 但 OpenBlocks 服务 硕 和 目前 相当 有 人 
气 的 单片机 Raspberry Pi 都 采用 了 armhf 架 
构 。armhf 使 用 者 可 以 将 其 与 armel 进 行 比较 ， 
从 而 切实 感受 armhf 带 来 的 速度 提升 。 


(9 软件 包 数 量 的 变化 


Wheezy 的 软件 包 总 数 是 37 493 个 ， 变 
化 如 下 : 


GD http://www.debian.org/releases/wheezy/installmanual 
(2 http://www.debian.org/releases/wheezy/releasenotes 


文 /Debian 开发 者 : 山 根 秀 树 ( henrich @debian.org ) 译 / 马 健 


zy 的 变化 之 处 


更 新 : 20 160 
删除 : 4125 
添加 : 12 800 


这 不 仅仅 有 版 本 升级 方面 的 变化 ， 系 
统 方面 也 有 如 下 变更 。 


(9 安全 方面 的 强化 


此 次 更 新 对 一 部 分 的 包 进 行 了 安全 强 
化 (hardening)。 即 在 gcc 编译 时 ,将 各 种 
各 样 的 安全 标志 设置 为 有 效 ， 从 而 缓和 外 
部 攻击 的 威胁 。 具 体 的 做 法 是 ， 打 包 时 在 
源码 包 的 debian/rules 文 件 中 显 式 地 设置 
dpkgbuildflags， 或 者 利用 debhelper9 之 后 的 
版 本 (debian/compat 文 件 中 设置 为 9)。 虽 然 
在 Debian 开 发 后 期 并 没有 对 所 有 的 包 进 行 
安全 方面 的 适 配 , 但 是 ， 一定 会 将 总 体 中 
占 比 30% 左 右 的 用 户 安装 的 “base” 软 件 包 ， 
和 曾经 出 现 过 安全 问题 的 软件 包 ， 以 及 受到 
来 自 网 络 方面 攻击 可 能 性 较 高 的 演示 包 之 
类 的 安全 标志 设置 为 有 效 。 另 外 ， 在 下 一 
个 开发 周期 (代号 Jessie) 中 ,将 会 通过 建 


(3) http://outflux.net/debian/hardening/ 


浆 呈 te 


立 这 一 部 分 的 检查 系统 ， 从 而 大 幅 提 高 其 
覆盖 率 ， 这 一 点 也 备 受 期 待 。 


(9 多 架构 ( Multi_Arch ) 支持 


在 Wheezy 中 引入 的 “ 单 系统 安装 和 运 
行 不 同 架 构 的 运行 库 和 应 用 程序 机 制 ” 便 是 
多 架构 (Multi-Arch )。 例 如 ， 在 使 用 当今 主 
流 的 64bit 环 境 (amd64) 系统 的 同时 ， 能 够 
使 用 32bit 的 应 用 等 2。 利 用 这 一 机 制 ， 可 
以 导入 库 , 并 可 以 通过 内 核 使 用 qemu 在 
x86 环 境 中 运行 ARM“。 由 于 在 默认 状态 下 
并 没有 进行 这 样 的 环境 设置 ， 所 以 读者 需 
要 在 适当 的 设置 之 后 才能 获得 多 架构 文 持 。 

接 下 来 ,我 们 用 Skype(i386 ) 来 试验 一 
下 吧 。 在 Skype 的 官方 网 站 上 下 载 其 安装 包 
(debian 7.0 版 ) 之 后 ， 如 来 想 要 在 amd64 框 
架 的 机 需 上 使 用 dpkg -i 来 安装 的 话 ， 就 会 
出 现 图 1 中 的 错误 。 


在 这 里 首先 使 用 


$ sudo dpkg --add-architecture i386 


有 图 1 在 amd64 的 机 器 上 安装 Skypel(i386)( 其 1) 


$ sudo dpkg -1 skype-debian_ 4.2.0.11-1_.1383.deb 
dpkg: error processing skype-debian_ 
4.1.0.20-1_ 1386.deb (--install): 
软件 包 的 体系 以 构 (i386) 与 本 机 系统 的 以 构 


(amd64) 不 符 
在 处 理 时 有 错误 友 生 : 
skype-debian_4.1.0.20-1_i386.deb 
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(4) http://buildd.debian.org/~brlink/ 
@) 过 去 是 通过 导入 ia32-lib package 来 对 应 这 种 问题 的 。 
(6) http://gihyo.jp/admin/serial/01/ubuntu-recipe/0226?page=2 


*/、 女 


来 指定 想 要 安 疲 的 应 用 程序 的 框 染 。 
然后 在 /etc/apt/sources.list 的 


deb http://ftp.jp.debian.org/debian/ 7 
wheezy main contrib non-free 


这 一 行 的 位 置 添加 如 下 代码 : 


deb [arch=amd64,i386] http://ftp.jp. Zz 
debian.org/debian/ wheezy main contrib z 
non-free 


代码 中 最 重要 的 是 arch=< 对 象 架 构 
1>,< 对 象 架构 2> 这 一 部 分 。 添 加 之 后 ,不 
要 扎 记 运行 apt-get update。 全 部 执行 之 后 ， 
刚刚 的 错误 就 会 消除 ， 之 后 便 能 够 进行 下 
一 步 操作 了 。 这 里 以 管理 者 身份 执行 apt- 
get install -f 命令 ,依存 关系 的 错误 就 
会 消失 ， 也 就 能 够 安装 Skype 了 (图 2)。 


(9 内 核 ，X.org 


在 Wheezy 中 ，Linux 内 核 包 名 从 linux-2.6 
package 变 更 为 linuxpackage， 与 此 同时 ， 
版 本 也 变 成 了 3.2。 现 在 ,作为 这 个 版 本 的 
维护 者 Ben Hutchings 还 人 负 贡 着 上 行 数据 流 
的 维护 工作 。 所 以 ，kernel.org 上 发 布 的 内 
核 与 Debian 包 中 的 内 核 并 无 多 大 的 区 别 。 
而 且 ， 世 界 上 最 精通 内 核 的 专家 维护 看 这 
个 版 本 的 Linux 内 核 程序 包 。Linux 内 核 包 
可 以 说 是 最 为 复杂 的 软件 之 一 ,没有 人 上 比 
Ben Hutchings 更 适合 这 份 工作 了 。 

但 是 ， 有些 读者 可 能 会 问 :“ 现 在 3.9 
都 出 来 了 了， 为 什么 不 使 用 最 新 版 本 的 内 核 
呢 ?” 这 里 ， 要 先 分 析 其 背景 。 首 和 完 ， 如 末 


OOeblanis 


要 发 行 Debian 的 稳定 版 的 话 ， 就 必须 提供 
至 少 3 年 的 技术 文 持 ， 所 以 ,在 已 发 行 稳 定 
版 的 内 核 中 ， 就 必须 要 选择 LTS (Long Term 
Support) 内 核 。 目 前 ，LTS 内 核 的 版 本 有 4 
个 ，3.4、3.2、3.0 和 2.6.34, 其 中 3.4.1 是 
2012 年 6 月 1 日 发 布 的。 而 Wheezy 的 开发 
进入 冻结 阶段 则 是 在 2012 年 6 月 30 日 , 大 
致 是 在 同一 时 期 。 这 种 情况 下 ， 很 难 再 改 
用 3.4 版 本 的 内 核 进行 开发 。 另 外 ， 这 个 时 


期 的 3.4 版 本 虽然 说 是 LTS , 但 它 还 不 够 成 熟 。 
相反 ，3.2 版 本 则 是 已 经 解决 和 处 理 了 各 种 
bug 的 成 熟 版 。 这 样 看 来 ， 进 入 冻结 阶段 的 
时 候 ， 没 有 理由 去 选择 3.2 版 本 以 外 的 其 他 
版 本 内 核 >。 另 外 ,虽然 是 3.2 版 本 ,新 版 
本 的 驱动 也 是 会 随时 移植 并 导入。Wheezy 
正式 版 中 不 可 用 的 设备 也 很 有 可 能 会 在 以 
后 发 布 的 测试 版 和 内 核 更 新 时 变 为 可 用 。 
顺便 提 一 下 ，Debian 不 稳定 版 使 用 了 最 新 


的 Linux 内 核 , 所 以 想 使 用 最 新 内 核 的 读者 ， 
可 以 去 尝试 一 下 Debian 不 稳定 版 。 

现在 X.org 的 最 新 发 布 版 本 是 7.7 版 ， 
视频 驱动 方面 都 已 经 适 配 好 了 。 如 果 出 现 
冲突 ， 那 应 该 是 KMS (Kernel Mode Setting， 
内 核 模式 设置 ) 和 固件 之 间 莱 容 方面 的 问 
题 ”， 这 种 情况 下 应 该 将 frmware-linux- 
nonfree 等 对 应 的 固件 进行 单独 加 载 ， 或 将 
启动 时 的 参数 设置 为 radeon.modeset=0， 同 
时 ， 还 必须 要 禁用 KMS。 


(9 工具 链 


此 次 更 新 ， 也 对 重要 的 工具 链 进行 了 
正式 的 版 本 升级 。 在 编 详 希 方面， 虽然 没 
有 加 入 刚刚 最 新 发 布 的 Gecc4.8， 但 采用 了 
Gecc4.7.2， 这 在 当前 ,应 该 足以 满足 开发 
(中 略 ) 者 的 需求 了 吧 。 另 外 ，LLVM (clang) 则 使 
解压 缩 后 会 消耗 掉 101MB 的 额外 空间 。 

您 希望 继续 执行 吗 ? [Y/n]y 


获取 : 1 http://ftp.jp.debian.org/debian/wheezy/ 
main gcc-4.7-base i386 4.7.2-5 [143 kB] 


了 图 2 在 amd64 的 机 器 上 安装 Skype(i386 )( 其 2) 


$ sudo dpkg =-i skype-debian_ 4.2.0.11-1_1386.deb 
Selecting previously unselected package skype. 
(正在 读 取 数 据 库 .. 系统 当前 共 安 六 有 132965 个 文件 是 
和 目录 。) 

正在 解压 缩 skype 

(从 skype-debian_4.1.0.20-1_i386.deb) ... 

dpkg: dependency problems prevent configuation 


of skype: 
skype 依赖 于 libasound2 (>= 1.0.16) 


(中 略 ) 


在 处 理 时 有 错误 发 生 : 
skype 


$ sudo apt-get -f install 
正在 读 取 软件 包 列 表 .. 完成 
正在 分 析 软 件 包 的 依赖 关系 树 
正在 读 取 状态 信息 .. 完成 
正在 更 正 依赖 关系 .. . 完成 
将 会 安装 下 列 额 外 的 软件 包 : 
gcc-4.7-base:1i386 libasound2:i386 1ibaudio2: 园 
i1386 libavahi-client3:1i386 


@ 笔者 也 曾经 疑惑 :“ 为 什么 不 用 3.4 呢 ?” 得 到 的 回复 是 “3.2 
最 可 靠 的 用 来 发 布 的 版 本 ”。 

笔者 用 的 是 带 Amd CPU 的 Thinkpad X121e 笔 记 本 ，Radeon 

HD 6250 显卡 恰恰 遇 到 这 个 问题 ,因此 我 吃 了 不 少 的 苦头 。 


中 
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用 了 3.0 版 本 。 想 要 使 用 最 新 版 本 的 读者 可 
以 利用 由 LLVYM 项 目 提 供 的 LLVM Debian/ 


如 果 下 次 Debian 8.0“ Jessie” 的 时 候 也 能 够 
以 同样 的 方式 开展 活动 就 好 了 。 
Ubuntu nightly packages 


玉照 片 1 东京 区 域 Debian 学习 会 情况 


….Wheezy 发 布 庆祝 活动 


关于 时 面 的 解说 就 放 到 下 期 这 里 来 说 
一 下 一 些 近 期 的 活动 吧 。 为 了 庆祝 Wheezy 的 
发 行 , 世界 各 地 都 展开 了 大 大 小 小 的 庆祝 聚会 。 
日 本 恰好 是 黄金 周 ， 所 以 时 间 上 错开 了 大 约 
一 周 ，5 月 11 日 东京 涩 谷 开展 了 庆祝 聚会 ”。 
7 月 迎 来 了 第 100 回 的 东京 区 Debian 学 习 会 ， 
在 学 习 会 (照片 1) 结束 后 大 家 还 小 聚 了 一 下 。 


图 3 


四 三 7 直人 一 了 尺 于 六 尿 丰 作成 ~ 口 妇 也 户 卜 


大 入 一 debilan 勉强 会 2013 。 = "~® 
开 催 概要 tyyay P72 了 + 又 臣 扣 会 书 申 达 - 书 间 合 甘 


大 统一 Debian 勉 强 会 2013 开 催 决定 ! 
2013.6.29 sat 


debian 


(O 募集 中 ! |! 


世 几 也 三 尺 丰 募集 [未 熔 了 已 未 由 大 。 


多 数 丰 去 店 募 矶 站 杰 睫 王 去 世人 未 必 大 。 


又 术 沪 闭 一 募集 ] 


法 = 本 一 也 上 应 昔 寺 3 


9) http://livm.org/apt/ 
提供 会 场 的 是 VOYAGE GROUP， 在 这 里 对 其 表示 感谢 。 


了 大 


小 崎 资 广 
KOSAKI Motohiro 
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红 帆 与 富士 通 的 关联 


富士 通 Linux 软 件 开 发 统 括 部 所 属 
译 / 王 凤 波 


什么 是 Onsite 工 程 师 


大 家 好 ! 我 是 富 
初次 见面 ， 请 多 关照 。 

笔者 在 位 于 波士顿 郊外 的 红 帽 公司 西 福特 
办 公 室 工作 。 接 下 来 将 由 我 特别 为 大 家 奉献 一 
段 来 自 波 士 顿 的 报道 。 

为 什么 富士 通 的 工程 师 却 坐 在 红 帽 的 办 
公 室 里 ?说 来 话 长 ，10 多 年 前 ,在 由 Red Hat 
Linux I9] RHEL 迁 移 的 黎明 期 ,， 红 帽 就 与 蚜 士 
通达 成 协议 ， 在 红 帆 公司 内 部 设置 了 共同 开发 
部 门 。 此 后 ， 虽 然 成 员 不 断 更 迭 ， 但 是 这 种 共 
同 开 发 的 合作 关系 却 一 直 延 续 至 今 。 其 开发 内 
容 包 括 很 多 方面 ， 诸 如 内 核 转 储 功 能 强化 、 跟 
蹊 功能 、CPU 和 内 存 热 移 除 的 实现 、 通 过 大 规 
模 便 件 实现 性 能 强化 等 。 寅 士 通 在 东京 证 券 交 
易 所 或 者 银行 等 关键 任务 开发 上 拥有 非常 丰富 
的 经 验 ， 非 常 擅长 “可 徘 性 强化 ”等 相关 领域 。 

为 什么 红 帽 没 有 位 于 西海 岸 而 是 位 于 波 士 
顿 呢 ?我 也 经 常 被 问 到 这 个 问题 。 红 帽 原 本 就 


通 的 内 核 工 程 师 小 崎 。 


是 位 于 东海 岸 的 企业 ， 即 便 现在 ， 其 主要 开发 
基地 依然 位 于 东海 兰 。 但 搬 往 西海 兰 的 说 法 变 
得 越 来 越 明 朗 ， 并 且 束 在 两 年 多 前 ， 关 于 是 
否 将 办 公 地 点 迁移 至 硅谷 一 事 ， 就 曾 在 当地 
引起 轩然大波 。 最 后 ， 西 福特 当局 做 出 受 协 ， 
提出 将 固定 资产 税 减免 $0% 的 特别 减 税 政策 ， 
红 帽 才 最 终 决 定 留 下 米 。 这 一 新 闻 曾 自动 一 时 。 

距离 西 福特 办 公 室 10 分 钟 左 右 车 程 ， 有 
一 个 叫 纳什 欧 巴 (Nashoba) 的 滑雪 场 ， 芍 车 再 
走 远 一 点 ， 还 有 好 几 个 可 以 当日 往返 的 像样 的 
滑雪 场 ， 对 于 冬季 体育 运动 爱好 者 而 言 ， 那 
是 个 让 人 很 至 受 的 地 方 。LKML (Linux Kernel 
Mailing List) 的 维护 人 员 多 受 雇 于 西海 岸 的 企 
业 ， 所 以 有 一 句 玩笑 说 “真正 的 OS 开发 者 在 
西海 尾 的 太 洗 (Tahoe， 从 西海 尾 可 以 当日 往返 
的 滑雪 场 ， 很 多 人 知道 它 是 因为 4.3BSD-Tahoe 
由 此 得 名 ) 理 受 滑雪 的 快乐 "， 其 实 位 于 东海 
是 的 波士顿 也 看 实 是 个 不 错 的 地 方 。 


日 弟 的 开发 形态 


关于 内 核 开发 ， 因 为 其 开发 成 员 大 多 是 上 
游 社区 (Upstream Community) 的 成 员 ， 所 以 
其 开发 氛围 与 LEKML 司 人 地 相似 。 因 为 红 帽 是 
Linux 企 业 ， 所 以 也 有 人 认为 这 是 理所当然 的 。 
大 家 各 日 将 补丁 发 送 至 邮件 列表 ， 其 他 开发 人 
员 则 进行 审核 并 回信 反馈 审核 结 采 。 我 推测 这 
种 LKML 式 文化 是 在 症 任 RH 内核 维护 艾 伦 考 
元 斯 (Alan Cox) 的 影响 下 形成 的 。 不 过 这 个 
推测 未 经 证 实 ， 因 为 那个 人 可 不 是 个 普通 人 ， 
当然 ， 这 是 从 积极 的 意义 上 来 讲 。 

正如 惠 比 寿 第 3 回 连载 报道 中 介绍 的 那样 ， 
RHEL 有 一 个 叫 上 游 优先 (upstream first) 的 条 
略 ， 原 则 上 只 有 与 上 游 内 核 合并 (merge) 的 补 
丁 才 会 被 合并 。 那 么 ， 是 不 是 可 以 说 只 进行 回 


迁 (backport) 会 比 修改 上 游 内 核 容 易 呢 ? 不 是 
的 ， 其 实 回迁 是 很 复杂 的 。 因 为 所 基于 的 内 核 
版 本 不 同 ， 有 时 会 导致 无 法 顺利 回迁 。 也 有 的 
补丁 因为 周边 代码 不 同 ， 如 末 进 行 回迁 ， 反 
而 会 产生 新 的 bug( 即 所 谓 的 enbug)。 有 一 次 ， 
我 们 实在 没有 办 法 而 不 得 不 研究 其 他 修改 方法 
时 , 一 位 上 游 内 核 的 维护 人 员 跳 出 来 历 声 责问 : 
“你 为 什么 不 在 上 游 修改 ?” 真 是 被 他 一 招 击 倒 。 
然而 ， 对 于 一 个 训练 有 系 的 开发 者 而 言 ， 其 实 
这 是 一 种 赏赐。 

上 游 内 核 的 最 新 技术 是 kABIW 因为 兼容 
失败 而 不 得 不 仅 将 补丁 的 一 部 分 进行 回迁 时 ( 特 
别 是 上 游 改 动 规模 较 大 时 ) 是 非常 棘手 的 ， 所 
以 有 时 候 就 会 有 人 抱 仿 说 “所 以 我 才 在 上 游 进 
行 讨论 时 特别 强调 了 这 个 补丁 ”"。 最 后 ,还 是 
由 负责 上 游 修改 的 当事人 出 场 ， 才 她 使 问题 
得 到 了 解决 。 


会 议 上 的 问候 


红 帆 是 一 个 跨国 企业 ， 所 以 即使 是 通过 公 
司 内 部 邮件 经 和 常 联系 的 人 ， 有 时 也 会 因为 办 公 
地 点 不 同 ” 而 从 未 谋面 。 在 一 次 会 议 上 , 我 
发 现 有 两 个 人 正 聊 得 热火 朝天 ， 回 他 们 打听 
了 一 下 才 知 道 ， 原 来 这 两 个 人 同属 一 个 开发 团 
队 , 但 却 是 第 一 次 见面 ， 所 以 才 聊 得 如 此 起 功 。 
Linux 有 很 多 会 议 都 是 在 全 世界 范围 内 召开 
的 ， 所 以 大 家 会 利用 这 样 的 机 会 增进 沟通 与 交 
流 。 笔 者 也 曾 在 上 个 月 于 旧金山 召开 的 Linux 
Storage Filesystem 多 MM Summit 会 议 上 与 数 
位 开发 人 员 进 行 丁 次 斋 s 


(D kABI ( Kernel Application Binary Interface ) ， 内 核 接 口 


的 二 进 制 兼容 性 ， 如 果 这 个 发 生 错误 ， 第 三 方 驱动 将 停 
止 工作 。 
@ 本 来 就 有 很 多 人 在 自己 家 里 工作 。 
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直人 RB 首 


红 帽 与 富士 通 的 关联 


东海 岸 的 美食 


提 到 波士顿 的 美食 ， 当 然 非 龙虾 更 属 。 这 
是 各 种 旅游 指南 中 绝对 可 以 找 得 到 的 美味 ， 但 
令 人 奇怪 的 是 ， 当 地 人 并 不 经 笛 食 用 龙虾 。 仔 
细 想 来 也 是 ， 日 本 三 重 县 的 人 也 不 是 每 天 都 会 
吃 伊 势 大 龙虾 ， 这 是 一 样 的 道理 。 笔 者 基本 上 
经 第 换 着 口味 地 吃 一 些 汉堡 、 三 明治 、 碾 西 哥 
玉米 煎饼 、 和 泰国 面 等 。 至 于 日 本 料理 ， 因 为 大 
多 是 中 国人 或 者 韩国 人 在 经 营 ， 所 以 基本 上 不 
去 。 红 帽 公司 员 工 食 筷 的 汉堡 使 用 的 肉 是 当场 
前 烤 的 ， 所 以 吃 起 来 口感 鲜美 ， 不 愧 是 美国 的 
国民 料理 啊 。 由 于 篇 幅 所 限 ， 这 里 就 不 再 给 大 
家 一 一 介绍 了 。 如 果 通 过 本 篇 报道 ， 能 或 多 或 
少 地 增进 了 大 家 对 红 帽 公司 开发 氛围 的 了 解 ， 
笔者 将 不 胜率 笠 。 


本 图 
照片 1 是 MM Summit 会 议 上 由 大 家 各 自 提出 的 、 


讨论 得 最 白热化 的 Linux VM 相关 课题 的 总 结 列表 ， 
以 及 该 课题 的 解决 先后 顺序 。 

例如 : 先 解决 pagevec 结 构 ; 直接 回收 ( direct 
reclaim ) 的 延迟 虽然 很 重要 ， 但 因为 数据 较 少 ， 
所 以 先 增 加 追踪 点 ; 因为 回收 的 延迟 ， 在 已 经 映 
射 mmap ) 过 页 面 的 处 理 过 程 中 ,不 允许 try- 
to-unmap( ) 函数 在 每 个 页 面 都 调用 IPI 而 导致 发 
生 无 效 ( invalidate ) 的 情况 ; 批 处 理性 等 。 这 些 
都 是 大 家 各 自 提 
出 并 一 起 整理 出 
来 的 .用 图 住 本 wen 
的 数字 可 以 理解 We 
成 优先 度 或 难 易 Ey en 


ME 
人 REAP TaA 


SS 
一 一 SS KvM 2 
度 ， 表示 解决 的 ALLoLsS 7 
L PAUEVEC + MPEK POE Acees 
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方法 。 


为 什么 选择 
中 已: 


参考 上 月 刊 的 文章 ， 大 家 有 可 能 已 经 在 使 
用 Ubuntu 13.04 了 。 除 撤 术 文 持 的 时 间 缩 短 了 
以 外 ,， 笔 者 认为 13.04 是 一 个 非常 好 的 版 本 ， 
本 文 也 是 在 13.04 下 执笔 完成 的 。 但 是 本 次 使 
用 的 是 Ubuntu 12.04 LTS， 所 以 如 果 没 有 此 版 
本 的 话 ， 必 须 事先 准备 下 环境 。 这 个 要 在 开始 
前 就 完成 。 

Chromium OS 是 Google Chrome OS 的 开放 
源 代 人 码 版 本 ， 由 于 日 本 还 没有 预 朔 Chrome OS 
的 PC 发 售 ， 所 以 只 能 手动 编 详 装载 Chromium 
OoOS 的 PC。 当 然 ， 如 采 有 非 浓 好 的 日 语文 持 的 
话 就 太 好 了 , 但 目前 我 认为 在 这 方面 还 有 符 改 善 。 
没有 预 装 Chrome OS 的 PC 发 售 真 是 很 可 异 。 

编译 Chromium OS 有 如 下 意义 。 首 完 Ubuntu 
和 想象 的 非常 不 同 ,通常 只 要 稍微 上 手 接触 一 
下 便 会 党 得 非常 有 趣 。Ubuntu 推荐 的 编译 环 
境 ， 也 正 是 本 文 所 采用 的 。Ubuntu 的 使 用 和 运 
行 全 编译 的 机 会 很 少 ， 所 以 也 是 非常 宝贵 的 体 
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“编译 Chromium Os 


本 文 将 介绍 Ubuntu 12.04 推 荐 编译 环境 Chromium OS 的 编译 方法 和 简单 的 使 用 


Ubuntu 日 本 团队 
Awashiro lkuya ikuya@fruitsbasket.info 
译 /kaku 


验 。Chromium OS 本 里 的 开发 现在 也 非常 流行 。 
低 规格 的 PC 也 可 以 运行 ， 基础 上 网 本 等 支持 
Windows XP 的 PC 都 可 以 。 其 实 与 本 系列 同时 
连载 的 还 有 Chromium OS 活用 的 文章 ， 但 现在 
与 那个 时 候 ” 的 编译 方法 还 是 有 很 大 的 不 同 。 
有 兴趣 的 朋友 可 以 去 看 4 Software Design 合 订 
本 2001-2012 》。 


编译 环境 会 把 OS 完整 编译 ,这 是 我 们 
想 要 做 到 的 规格 。 笔 者 实际 在 使 用 的 配置 是 
AMD A8-3820 四 核 CPU，8 GB 内 存 。HDD 
剩余 空间 40 GB 足够 。 请 使 用 Ubuntu 12.04 的 
AMD64 版 本 。 避 人 免 使 用 日 文 Remix 等 安装 的 
i386 版 本 。 然 后 sudo 权 限 也 是 必需 的 。 这 样 
的 话 大 概 就 不 会 有 问题 了 。 

首先 从 准备 开发 工具 开始 。 请 执行 代码 清 
单 1 的 命令 。 

编译 Chromium OS， 原 则 上 使 用 专用 打包 


从 目前 的 连载 回 数 就 可 以 知道 大 概 是 在 三 年 前 。 


思春 有 i386 版 本 编译 也 可 能 通过 ， 但 好 像 会 变 得 比较 慢 。 而 且 如 果 没 有 怎么 测试 可 能 会 磁 到 很 多 陷阱 ， 所 以 这 样 做 很 重要 。 
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工具 ， 安 装 后 ， 再 使 用 sudo 完 成 剩余 工作 。 把 
代码 清单 2 的 内 容 做 成 脚本 。 

这 样 编译 的 准备 就 完成 了 。 然后 ,需要 
决定 编译 架构 。Chromium OS 的 术语 称 为 
“board”， 共 有 三 类 : 


X86-generic i386 用 
amd64-generic……AMD64 用 
arm-generic …………: ARM32 位 用 


其 中 ，x86-generic 最 为 妥当 ， 所 以 这 里 使 
用 x86-generic， 请 执行 如 下 命令 : 


取得 代码 ， 然 后 执行 如 下 命令 


$ repo init -u https://git.chromium.org/ 


chromiumos/manifest.git 


最 后 会 询问 用 户 名 和 邮件 地 址 ， 请 输入 。 
在 这 之 后 就 是 开始 下 载 。 


因为 会 将 OS 完全 下 载 下 来 ,根据 网 速 不 
同 ， 有 时 会 花费 不 少时 间 。 可 以 边 阅 读本 杂志 
的 其 他 文章 边 等 待 下 载 完成 。 如 果 显 示 出 “Your 


V 代码 清单 1 准备 开发 工具 


编译 Chromium OS SR 


sources have been sync'd successfully”， 那 就 说 


明 下 载 完 成 了 。 
终于 要 执行 编译 了 ， 


请 执行 如 下 命令 : 


$ cros_sdk -- ./build_pakages ?board=${BOARD} 


完成 后 会 显示 “ INF0 
16m59s” 等 所 花费 的 时 间 。 
此 环境 花费 了 17 分 钟 左右 编译 完毕 。 

编译 完成 后 ， 还 要 做 成 镜像 。 请 执行 如 下 


: Elapsed time 


(build_packages): 


命令 : 


$ cors_sdk -- ./build_image ?board=${BOARD} 


镜像 做 成 后 也 会 显示 所 花费 的 时 间 。 此 次 
环境 下 为 “INFO 
10m3s”。 


: Elapsed time (build_ 
Image ) : 
将 镜像 转送 至 USB 闪存 的 方法 ， 及 虚拟 机 
的 镜像 转换 方法 如 代码 清单 3 所 示 ， 这 也 是 此 
次 环境 执行 后 的 案例 展示 。 
向 USB 闪存 转送 时 ， 可 以 将 闪存 内 容 全 部 
删除 ， 以 确保 有 4GB 以 上 ”空间 ， 并 将 其 插入 
PC。 然 后 执行 代码 清单 4 的 命令 。 


@ 做 成 的 镜像 文件 大 小 为 2.4GB， 所 以 2GB 以 下 明显 不 够 。 
现在 是 600 日 元 就 可 以 买 到 对 应 USB3.0 的 4GB USB 闪存 
的 时 代 ， 所 以 还 是 准备 一 个 专用 的 吧 。 


$ sudo apt-get install git-core gitk git-guyui subversion curl 


$ mkdir chromiumos; cd chromiumos/ 


$ git clone https://chromiumo.googlesource.com/chromium/tools/depot_tools.git 


$ export PATH = "$PATH"”: ‘pwd‘/depot_tools 


V 代码 清单 2 开发 工具 的 准备 


#!/bin/sh 

cat > ./sudo_editor <<EOF 

#!/bin/sh 

echo Defaults !tty_tickets > $1 

echo Defaults timestamp_timeout=180 >> $1 
EOF 

chmod +x ./sudo_editor 


sudo EDITOR=./sudo_editor visudo -f /etc/sudoers.d/relax_requirements 
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第 二 次 执行 的 命令 ， 并 不 是 这 里 写 的 ， 而 
是 执行 终端 上 显示 的 内 容 。 因 为 人 om 对象 的 路 
径 不 同 ， 所 以 执行 失败 。 确 认 无 误 输 入 后 ， 按 
下 Enter 键 就 会 显示 如 下 注意 事项 : 


NWA/ANRIN IN EHR EVI el el /el Yele' 
BUFFALO USB FLASH Disk, 


显示 内 容 会 因 USB 闪存 型 号 不 同 而 不 同 ， 
确认 无 误 后 输入 “y”,， 然后 按 下 Enter 键 。 当 
然 不 需要 输入 双 引 号 。 这 里 也 会 稍微 花费 点 儿 
时 间 ， 最 后 出 现 类 似 dd 的 执行 结果 消息 ， 就 表 
示 输 出 完成 。 

此 时 可 以 顺便 制作 虚拟 机 镜像 ， 执 行 如 代 
人 码 清单 5 所 示 的 命令 。 

这 个 也 要 执行 终端 显示 的 内 容 。 虽 然 按照 
说 明 人 似乎 可 以 制作 VMware 用 的 镜像 ， 但 实际 
上 制作 的 却 是 QemuwKVM 用 镜像 。 做 成 镜像 的 
地 方 多 少 有 点 儿 难 以 理解 ， 但 from 对 和 象 的 文件 


夹 里 chromium gemu image.bin 文 件 已 被 生成 。 
笔者 使 用 的 是 VirtualBox， 所 以 使 用 了 此 镜像 
文件 转换 后 的 文件 , 尝试 的 过 程 中 没有 使 用 鼠标 ， 
所 以 使 用 Qemu/KVM 是 很 安全 的 。 


如 果 没 有 安装 Qemu/KVM 的 话 , 请 安装 一 下 。 


$ sudo apt-get install qumu-kvm 


执行 如 代码 清单 6 的 命令 。 

与 执行 image to_vm.sh 后 所 显示 的 消息 大 
概 一 致 ， 路 径 的 指定 稍 有 不 同 ， 请 注意 。 局 动 
后 会 感觉 窗口 有 些小 ， 可 以 用 鼠标 调整 为 任意 
大 小 。 

虚拟 机 的 情况 下 ， 除 了 比较 慢 以 外 不 会 出 
现 什么 大 的 问题 ， 如 果 从 USB 闪存 启动 ， 手 持 


V 代码 清单 3 ”转送 至 USB 的 方法 和 虚拟 机 的 镜像 转换 方法 


Done. Image(s ) created in /mnt/host/source/src/build/images/x86-generic/R29-4145.0.2013_05_18_1238-al 


Developer image created as chromiumos_image.bin 
INFO : Elapsed time (build_image ): 10m3s 
To copy the image to a USB key, use: 


./image_to_usb.sh --from=../build/images/x86-generic/R29-4145.0.2013_05_18_1238-all 


To convert it to a VMWare image, use 


./image_to_vm.sh --from = ../build/images/x86-generic/R29-4145.0.2013_05_18_1238-al ?board=x86-generic 


V 代码 清单 4 ”转送 至 USB 闪存 


seaesne/senmts, 


$ ./image_to_usb.sh ?from = ../build/images/x86-generic/R29-4145.0.2013_05_18_1238-al 


V 代码 清单 5 ”虚拟 机 镜像 文件 做 成 


$ ./image_to_vm.sh --from=../build/images/x86-generic/R29-4145.0.2013_05_18_1238-al ?board=x86-generic 


V 代码 清单 6 执行 


$ sudo kvm -m 1024 -vga cirrus -pidfile /tmp/kvm.pid -net nic, model=virt | io -net 
users,hostfwd=tcp: :9222-:22 -had ../build/images/x86-generic/R29-4145.0.2013_ | 05_18_1238-al/ 


PC 不 能 启动 的 情况 比较 多 。 笔 者 实验 以 后 的 
结果 如 表 1 所 示 。 


局 动 时 的 设 定 仪 有 使 用 语言 和 Goosgle 账 户 
以 及 账户 所 显示 的 头像 。 启 动 后 的 界面 没有 壁纸 ， 
你 可 能 会 觉得 不 若 所 措 ， 奢 点 击 右 下 角 的 钟表 会 
出 现 “ 设 定 ”。 深 动 到 最 下 面 , 点 击 显示 详细 设 定 。 
首先 将 时 间 的 时 区 设置 为 东京 。 然 后 点 击 输入 
语言 设置 。 选 中 “Mozc (for Japanese Keyboard》。 
想 变 更 ATOK 键 组 合 的 话 ， 可 以 点 击 “ 设 定 ”， 
将 “选择 键 设置 ”设置 为 “ATOK”。Mozc 的 局 
动 方法 为 设 定 画 面 中 显示 的 AlttShift 键 。 

壁纸 和 Chromium 的 主题 也 可 以 更 改 , 但 
系统 没有 预存 壁纸 ， 所 以 需要 自己 准备 %。 

与 设 定 稍微 有 些 不 同 ， 按 下 Ctrl+Alt+F2 可 
以 显示 虚拟 控制 台 。 返 回 为 Ctrlt+Alt+F1。 虚 拟 
控制 台中 会 显示 用 户 名 等 信息 。 


上 第 二 次 以 后 的 编译 


编译 Chromium OS SR 


之 后 请 执行 image to usb.sh 和 image to 


vm.sh, 


\ 放 一 、 二 
Dz XE / 


因为 Chromium OS 的 开发 很 活跃 ， 所 以 根 
据 编译 时 间 不 同 ， 很 有 可 能 会 发 生 失 败 或 者 不 
能 局 动 等 问题 。 编 译 的 方法 也 可 能 随 之 发 生变 
化 。 虽 然 如 此 ， 但 是 也 没有 比 这 更 加 简单 的 方 
法 了 。 这 种 情况 下 ， 请 确认 英文 版 Quick Start 
Guide“。 如 果 还 是 不 能 编译 成 功 ,说 不 定 过 
几 天 再 试 一 次 就 会 编译 成 功 。 


G) http://dev.chromium.org/chromium-os/quick-start-guide 


V 代码 清单 7 第 二 次 以 后 的 编译 


$ cd chromiumos/depot_tools 
$ Bl [DLL 
3 C@ oo 
装 、 $ export PATH="$PATH”: ‘pwd'‘ /depot_tools 
第 二 次 以 后 的 编译 会 更 加 简单， 这 里 就 不 $ repo sync 
0 a $ export BOARD=x86-generic 
获 述 了 ,大致 执 行 代码 清单 7 束 可 以 了 。 $ cros_sdk -- ./build_packages ?board=${BOARD} 
$ cros_sdk -- ./build_image ?board=${BOARD} 
Fecesie/hseo us 


(4) Google+ 上 传 的 照片 好 像 也 可 以 使 用 。 


表 1 局 动 状况 


2008 ASUS Eee PC 901-16G x 画面 不 能 显示 

2009 ACER Aspire Timeline AS1410 O 一 

2012 ASUS U24A-PX3210 x 启动 了 但 是 触摸 屏 不 能 使 用 
2012 ASUS X202E-CT987G x 未 能 启动 
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第 让 6 加 


一 一 pvpanic 


文 /青田 直 大 (AOTA Naohiro ) 译 /kaku 


内 核 3.9 发 布 以 后 , 内 核 3.10 的 开发 
也 随 之 开始 。3.0 版 下 的 小 版 本 号 ， 不 知 不 
觉 已 到 达 两 位 数 了 , 由 此 也 可 看 出 Linux 
内 核 开 发 是 相当 活跃 的 。 这 个 月 我 想来 介 
绍 一 下 Linux 3.10 中 pvpanic 和 Android 的 


Synchronization framework 等 新 功能 。 


pvpanic 


pvpanic 功能 可 以 在 虚拟 机 客户 端的 内 
核发 生 错误 时 ， 辐 主机 端 发 出 通知 。 若 尝试 
此 功能 必须 有 以 下 环境 : 


。 linux 内 槟 3 和 0 ZE 
。 qemu 1.5.0 以 上 
。 Seabios 的 git 版 


Linux 内 核 设 定 部 分 如 下 : 


Device Drivers ---> 
[*] X86 Platform Specific Device Drivers ---> 
<M> pvpanic device support 


Linux 3.10 新 功能 量 


将 以 上 三 处 安 疼 后 (将 内 核 模 块 区 净 到 
客户 端的 文件 系统 中 )， 导 劲 客 户 端的 Inux。 
首先 癌 从 QEmnu 而 来 的 SA 销 误 通知 接口 ， 
以 及 从 seabios 而 来 的 ACPI 的 错误 通知 接口 
中 添加 QEMU0001 的 ID。ACPI 的 情况 下 如 
图 1 所 示 ， 可 以 确认 接口 已 被 添加 。 接 下 来 
向 内 核 读 入 模块 pvpanic 后 ， 准 备 工作 就 结 
了 。 使 用 sysrq-trigger 来 故意 使 内 核发 生 错 误 
(图 2)。 

内 核 错 误 发 生 后 切换 至 QEmu 的 监视 
侣 。 奋 使 用 图 形 窗 口 则 按 CtHAIH2, 使 用 参 
数 -nographic 启动 qemu 的 情况 则 按 Ctrltatc 切 
换 至 QEnm 监 视 器 。 在 监视 器 中 查看 虚拟 机 的 
状态 ， 就 可 以 在 客户 端 检验 出 错误 信息 (图 3)。 

与 此 同时 ， 通 知事 件 会 将 QMP (QEMU 
Monitor Protocol) 协议 发 生 的 错误 发 送出 去 。 
qemu 加 -qmptcp:127.0.0.1:4444,server 参数 
后 启动 ， 在 qmp-shell” 中 指定 此 地 址 链接 。 
这 是 为 了 和 QEmu 监视 器 同样 地 查看 虚拟 机 


GD 从 这 里 可 以 拿 到 : http://git.qemu.org/?p=qemugit;a=tree; 伍 Q 
MP:hb=HEAD 
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TU 00 0 


V 图 1 ACPI 的 确认 和 模块 读 取 


# strings /sys/firmware/acpi/tables/SSDT|grep QEMU 
QEMU0001 
erelelwejer eM ell hie 
eXe| 

MkoXe (VS 

ee 


Size Used by 
2017 0 


V 图 2 使 内 核 友 生 错 误 


# echo 
256 . 
256 . 
256 . 
256 . 
256 . 
256 . 
256 . 
256 . 
256 . 
256 . 
256 . 
256 . 
256 . 
256 . 
256 . 
256 . 
256 . 
256 . 
256 . 
256 . 
256 . 
256 . 
256 . 
256 . 
256 . 
256 . 


(ep /proc/sysrd-trigger 

428775] SysRq : Trigger a crash 

429307] BUG: unable to handle kernel NULL pointer dereference at 

429460] IP: [<ffffffff814581b6>] sysrq_handle_crash+Ox16/0x20 

429460]」 PGD 1c122067 PUD 1cbd50667 PMD 0 

429460] Oops: 0002 [#1]」 SMP 

4294601] Modules linked in: pvpanic 

429460] CPU: 6 PID: 776 Comm: bash Not tainted 3.10.0-rc2+ #250 

429460] Hardware name: Bochs Bochs, BIOS Bochs 061/01/2011 

429460] task: ffff88001c090000 ti: ffff88001c054000 task.ti: ffff88001c054000 

429460] RIP: 6010:[<ffffffff814581b6>] [<ffffffff814581b6>] sysrq_handle_crash+0x16/0x20 
429460] RSP: 0018:ffff88001c055e68 EFLAGS: 00010092 
429460] RAX: 600000000000000f RBX: 0000000000000063 RCX: 
429460] RDX: 6000000000001099 RSI: 0000000000000046 RDI: 
429460] RBP: ffff88001c055e68 R68: 0000000000000003 R09: 
429460] R10: 60000000000001ab R11: 00000000000001aa R12: ffffffff81c93c40 

429460] R13: 606000000000000286 R14: 0000000000000001 R15: 0000000000000000 

429460] FS: 00007f9df51ab700(0000) GS:ffff88001fc00000(0000) kn1GS:06000000000000000 
429460] CS: 0010 DS: 0000 ES: 0000 CRO: 0000000080050033 

429460] CR2: 0000000000000000 CR3: 000000001cf1f000 CR4: 00000000000006f0 

429460] DRO: 0000000000000000 DR1: 0000000000000000 DR2: 0000000000000000 

429460] DR3: 606000000000000000 DR6: 00000000ffffoff0 DR7: 0000000000000400 

429460] Stack: 

429460] ffff88001c055ea8 ffffffff814589al ffff88001c055ee8 0000000000000002 

429460] fffffffffffffffb 00007f9df51b2000 ffff88001c055f50 0000000000000001 

429460] ffff88001c055ec8 ffffffff81458a43 ffff88001c055ee8 ffff88001ddb4300 

429460] Call Trace: 


00000000000005da 
0000000000000063 
ffffffff81ea8048 


[ 
[ 
[ 
[ 
[ 
[ 
[ 
L 
[ 
[ 
[ 
E 
E 
E 
[ 
[ 
[ 
[ 
[ 
[ 
[ 
[ 
[ 
[ 
[ 
[ 
[ 
[ 
[ 
[ 
[ 
[ 
[ 
[ 
5 


256 . 
256 . 
256 . 
256 . 
256 . 
256 . 
256 . 
256 . 
c7 05 14 fa 
89 e5 53 48 
256. 
256. 
256. 
256. 
256. 


429460j 
429460j 
429460j 
429460j 
429460j 
429460j 
429460j 
429460j 


429460j 
429460j 
429460j 
429460j 
429460j 


[<ffffffff814589a1>] 
[<ffffffff81458a43>] 
[<ffffffff812102c3>] 
[<ffffffff811b207e>] 
[<ffffffff813b105a>] 
[<ffffffff811b2562>] 
[<ffffffff81721006>] 
(olo [Ee 


__handle_sysrq+0x121/0x190 

write_sysrq_trigger+0x33/0x40 

proc_reg_write+Ox43/0Ox70 

vfs_write+Oxce/0Ox1e0 

? trace_hardirqs_off_thunk+0Ox3a/0Ox6c 

SyS_write+0x52/0xa0 

System_cal1_fastpath+Ox1a/0Ox1f 

65 34 75 e5 4c 89 ef e8 24 f8 ff ff eb db 66 90 of 1f 44 00 00 


EE 


RIP 


[<ffffffff814581b6>] sysrq_handle_crash+0x16/0x20 


RSP <ffff88001c055e68> 


CR2: 0000000000000000 


---[ end trace 1afcd15abc8fc3e7 1]--- 
Kernel panic - not Syncing: Fatal exception 


图 3 “ACPI 的 确认 和 模块 读 取 


QEMU 1.5.50 monitor - type ‘help’' for more information 
(qdemu) info status 
VM status: paused (guest-panicked) 
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核 观 苑 洲 


状态 , 添加 运转 中 的 磁盘 ,关闭 虚拟 机 电源 。 
on 模块 ， 可 以 查看 内 核发 生 的 错 
误 和 通过 qmp-shell 发 送 的 事件 。 

图 4 表示 正在 发 送 错误 事件 GUEST 
PANICKED 和 虚拟 机 关闭 事件 STOP。 这 里 


关闭 虚拟 机 也 是 通过 pvpanic 完 成 的 。 


nD pvpanic 的 结构 


我 们 先 从 初始 化 的 部 分 来 看 pvpanic 的 
结构 。 

在 QEmu 中 加 入 has pvpanic 参 数 ， 参数 
为 true 的 情况 下 ，pvpanic init() 被 调用 。has_ 
pvpanic 在 1.5 版 本 的 虚拟 机 中 默认 为 true， 
除 些 以 外 则 为 false。pvpanic init() 通 过 isa_ 
create simple() 来 注册 pvpanic 的 ISA 总 线 人 。 

虚拟 机 启动 时 ，pvpanic 的 ISA 总 线 的 初 
始 化 函数 pvpanic isa inittn() 被 调用 。 这 个 

国 数 会 准备 JSA 的 IO 端口 ， 而 且 这 个 IO 端 

口 的 位 置 会 被 记录 在 machine/fw_ cfg 对 象 中 ， 


(2 http://git.qemu.org/?p=qemu.git;a=commitdiff;h=3ab135f346 
2af4c523a4b5969f9d6c672ac427a 

3) http://git.qemu.org/?qemu.git;a=commitdiff;h=eec3d2adc9 8d 
d9ef7352823ce6597f88aS1cf7cb 

(4) http://git.qemu.org/?qemu.git;a=commitdiff;h=10a584b2875a 
391d1036adac18955a892e5S6fSe3 


有 图 4 dmp-shell 的 错误 通知 


# gqemu -qmp tcp:127.0.0.1:4444,server ... 
# qmp-shell 127.0.0.1:4444 

Welcome to the QMP low-level shell! 

(Go a] alsTon To Wo 0) a es 


(QEMU) 

Tololo 
U event : U GUEST_PANICKED } 
{uU' timestamp : {u seconds : 

(QEMU) quit 

{uU return : {}} 


{uU' timestamp : 


1369325618,Uu'microseconds': 


1369325618, Uu'microseconds': 


并 保存 至 文件 名 为 etc/pvpanic-port 的 文件 中 外。 
Seabios 在 构建 记载 ACPI 的 SSDT (Secondary 


System Description Table ) 设备 信息 表 时 ， 会 
检测 是 否 存 在 文件 etc/pvpanic-port。 如 果 这 
个 文件 存在 ， 就 会 将 文件 中 写 着 的 pvpanic 的 
IO 端口 号 写 人 ， 大 不 存在 则 将 0 写 人 SSDT 
表 的 QEMU0001 ID 中 。 这 就 是 虚拟 机 使 用 
ACPI 寻 找 pvpanic 的 IO 端口 ， 以 及 可 以 从 
ACPI 的 SSDT 的 QEMU0001 中 取得 的 原理 。 

客户 端 pvpanic 的 内 核 模块 被 加 载 时 ， 
首先 查看 API 的 SSDT， 以 及 从 QEMU0001 
取得 pvpanic 的 WO 端口 “。 然 后 ， 内 核 错 误 
时 做 成 回调 项 

内 核 错 误 发 生 后 通 
使 用 outb(0)， 向 IO 端口 发 送 12。 从 这 里 传 
送 给 QEmu 的 handle event(0 (代码 清单 1)。 通 
过 hand event() 从 QEmu 疝 QMP 发 送 GUEST 


数 pvpanic panic notify。 


过 pvpanic send event() 


PANICKED 事 件 ， 虚 拟 机 则 变 为 RUN_STIAIE 
GUEST PANICKED 状态 而 停止 (图 5)。 

于 是 QEmu、Seabios、linux 内 核 就 这 样 
被 巧妙 地 组 合 起 来 通知 内 核 错 误 。 


(©) http://code.coreboot.org/pseabios/source/tree/master/src/acpi.c 

(6) http://git.kernel.org/cgit/linux/kernel/git/torvalds/linux.git/ 
tree/drivers/platform/x86/pvpanic.c#n93 

CO http;//git.kernel.org/cgit/linux/kernel/git/torvalds/linux.tit/ 
tree/drivers/platform/x86/pvpanic.c#nS9 


719474}, u'data'’: {u'action': u’'pause’'}, 


953920}, u'event’': U'STOP } 


加 Androld sync driver 


之 前 加 入 Android 的 内 核 功能 合并 到 了 
Linux 本 里 中 ,同样 3.10 中 出 自 新 Android 
功能 的 Synchronization famework， 以 及 使 


用 它 的 Software synchronization objects 的 实 
现 也 合并 在 其 中 。 

Synchronization framework， 从 它 的 名 字 
就 可 以 想象 出 , 其 作用 就 是 同步 各 驱动 ,但 是 ， 
仅仅 是 同步 的 话 ， 内 核 中 应 该 已 经 完全 有 具 
备 了 这 个 功能 。Synchronization framework， 
到 底 有 怎样 的 特征 呢 ? 

Synchronization framework 有 这 样 三 个 


基本 的 构造 : 


。 timeline 
。 Sync point 
。 fence 


下 面 为 到 timeline 时 的 流程 。 在 timeline 
中 设置 有 多 个 sync point。 与 各 个 Sync point 
对 应 都 有 fence， 反 过 来 fence 对 应 一 个 以 上 
的 sync point。 人 简单 的 例子 如 图 6 所 示 。 

sync point 虽然 已 发 送 了 signal， 但 未 


代码 清单 1 QEmu 的 handle_event 
static void handle_event(int event) 
static bool logged; 


if (event & ~PVPANIC_PANICKED && !logged) { 


qemu_log_mask (LOG_GUEST_ERROR, "pvpanic: 


logged = true; 


if (event & PVPANIC_ PANICKED) { 
panicked_mon_event("pause"); 
vm_stop(RUN_STATE_GUEST_PANICKED); 
elavrms 
} 
} 
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发 送 的 仍 有 两 个 状态 。 而 且 ，fence 追 加 至 
对 应 的 文件 描述 符 ， 对 应 此 文件 可 以 poll 或 


wait (设置 暂 集 )， 或 者 设置 回调 函数 。 这 些 


有 图 5 pvpanic 的 动作 


站 


Guest : Host 
QMP shell 
s 等 
| VM 停止 


错误 事件 通知 


outb (1) 


Callback : 
pvpanic_panic_notifyO ji 


有 图 6 timeline 的 流程 


callback 1 


callback 2 
callback 3 
callback 4 


unknown event %#x. n”, event); 
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于 图 7 


见 光 游 


wait、callback 的 动作 ， 在 fence 的 所 
有 sync point 发 送 signal 之 后 poll、wait 结 束 ， 
callback 被 执行 。 拿 图 6 来 说 ， 
1 到 4 发 送 signal 的 话 ，callbackl 到 3 
行 但 callback4 不 会 被 执行 。 

在 这 里 “信号 被 发 送 ”的 含义 是 问题 所 在 。 
实际 上 这 里 使 用 Synchronization framework 
实现 依赖 ， 在 做 成 timeline 时 可 以 指定 sync 
point 是 否 发 送 signal 的 判断 函数 。 例 如， 
Software synchronization objects 用 时 间 这 样 
的 对 象 来 检验 是 否 signal 被 发 送 。 

/dev/sw_sync 设 备 文件 open() 的 话 ，Software 
synchronization 的 timeline 被 做 成 “时 刻 ” 设 
置 为 0。 这 个 文件 有 两 个 种 类 的 ioctl10) 可 以 执 
行 。 其 中 之 一 为 做 成 指定 某 个 “时 刻 ” 的 sync 
个 sync point 所 拥有 的 fence。 男 一 个 
仪 指定“ 时 刻 ” 的 数字 就 可 以 了 。timeline 的 


poll、 


sync point 从 
会 被 执 


point 和 这 


必须 将 内 核 设置 为 SW_SYNC _ USERR。 


根据 /dev/sw_sync 的 两 个 ioctl() 


添加 3 个 
timeline 时 刻 为 0 


timeline 


timeline 时 刻 +3 
sync point 1,2 发 送 Signul J 


sync point 
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“时 刻 ” 知 在 syncpoint 的“ 时刻 ”之 后 ， 
point 会 被 发 送 signal。 也 就 是 说 ,站 完 在 “时 刻 ” 
1、2、5 做 成 sync point 的 话 会 变 为 如 图 7 左 侧 
所 示 。 然 后 ,试看 前 进 到 “时 刻 ”3 的话 如 图 
7 右 侧 所 示 ，timeline 的“ 时刻” 会 移动 ， 结 
“时 刻 ”1、2 的 sync point 会 发 送 signal。 


sync 


下 mempressure 的 导入 


从 这 里 开始 ,介绍 3.10 加 入 的 几 个 比较 
重要 的 功能 。 首 先是 在 前 面 的 文 草 中 介绍 过 
“, 再 简单 介绍 
一 下 。 加 入 这 个 功能 后 在 memory cgroup 中 
会 被 添加 。 


个 memory. 


的 mempressure notification 


新 的 memory.pressure level 文 件 
为 获取 通知 的 eventftd,， 打开 这 
pressure_level， 把 这 些 描述 符 和 想 要 获取 的 
pressure level 一 并 写 入 cgroup.event control， 
从 eventfd 获 取 对 应 level 的 通知 。 
level 有 low、medium 和 critical 三 种 。 

low 会 在 回收 未 使 用 的 内 存 作为 预 留 时 发 出 

通知 。medium 会 在 回收 内 存 ， 且 所 见 60% 
以 上 不 能 回收 (因为 在 使 用 中 ) 时 发 出 通知 。 

这 是 系统 在 开始 swap， 并 将 正在 使 用 中 文 
件 的 绥 存 大 致 开始 清除 的 时 候 。 因 有 剩余 ， 
所 以 还 有 时 间 调 查 系 统 的 状态 ， 并 检查 是 
释放 应 用 程序 端 使 用 中 缓存 。critical 的 所 见 
90% 以 上 内 存 不 能 回收 时 发 出 通知 。 奢 到 
达 这 种 情况 的 话 swap 的 IO 系统 会 变 得 几乎 


(9) http://git.kernel.org/cgit/linux/kernel/git/torvalds/linux.git/co 
mmit/?id=70ddf637eebe47e61fb2be08a59315581b6d2f38 


不 能 运行 ， 要 马上 使 用 OOM Killer 强 制 停 
止 进程 。 如 果 出 现 这 种 情况 要 马上 采取 一 些 


措施 。 


脚本 执行 功能 5 
目 由 选择 


接 下 来 ， 如 同 我 们 熟知 的 UNIX 脚 本 ， 
在 文件 的 开 涉 “#!” 指 定 脚本 解释 冀 变 为 般 
入 模块 而 不 是 内 核 ， 也 就 是 说 从 内 核 中 完全 
分 离 了 出 来 %。 于 是 ， 完 全 不 能 使 用 脚本 的 
系统 (或 者 看 加 入 模块 中 ，mount 根 文件 系 
统 之 前 不 能 使 用 的 系统 ) 也 变 得 可 以 使 用 了 ， 
只 是 在 有 些 地 方 会 不 太 好 用 。 


A randconfig 的 改 羞 


编辑 Linux 内 核 设 定 项 目的 程序 kconfig 
也 稍 有 改变 。Linux 内 核 设 定 参数 的 数量 变 
得 很 多 。 可 能 功能 A 设置 为 ON、 功 能 B 设 
置 为 OFF 时 编译 失败 ,启动 也 可 能 失败 。 
但 是 ， 也 不 可 能 实现 这 个 设 定 参数 全 部 组 
合 测试 。 反 之 ， 自 由 地 将 设 定 项 目 设 为 ON/ 
OFF 的 话 ， 可 以 找 出 人 工 操作 之 外 bug 的 可 


(0 http://git.kernel.org/cgit/linux/kernel/git/torvalds/linux.git/co 
mmit/?id=2535d0d723d4d7723b030f39fb350e436bdb983f 


N:100-N 
N:M N+M:100-(N+M)] 
N:100-N 


N/2:N/2:100-N 
N:M:100-[N+Mj 
M:L:100-{M+L] 
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能 性 组 合 。 从 “make randconfig” 自 由 设 定 
项 目 为 ON/OFF 已 经 可 以 实现 。 在 3.10 中 ， 
randconfig 的 功能 中 这 两 个 地 方 都 做 了 改善 。 

第 一 ，KCONFIG PROBABILITY 环境 
变量 可 以 随机 变更 为 ON/OFF 。 目前 为 止 ， 
单纯 ON (y)/OFF (n) 的 话 可 能 性 各 占 50%， 
组 合 (y)/ 模 块 (m)/ 无 (n) 的 话 可 能 性 为 
33%/33%/34%， 全 部 选择 项 可 以 被 均等 地 
选择 。 比 如 把 CONFIG PROBABILITY 设置 
为 N 和 0 一 100 的 数字 ， 可 能 变 为 ON 是 N%， 
变 为 OFF 是 (100-N)%。 其 他 N:M/N:MLL 的 
设 定 可 能 如 表 1 中 所 列 (y:n 为 ON/OFF 的 单 
纯 设 定 项 目 ，y:min 为 组 合 / 模 块 /无 的 设 定 
项 目 )。 

第 二 ,环境 变量 KCONFIG BANDSEED 
可 以 设 定 随机 的 种 子 值 ”。 若 给 予 同样 的 种 
子 值 ， 就 可 以 一 直 得 到 同样 随机 的 设 定 。 


总 结 


关于 Linux 3.10 中 加 入 的 功能 ， 本 次 以 
pvpanic 为 主 ， 简 要 介绍 了 mempressure 和 脚 
本 执行 功能 的 改善 。 有 了 pvpanic， 可 以 在 
虚拟 机 发 生 错 误 时 发 出 通知 (而 且 ， 可 以 停 
止 虚 拟 机 )， 利 用 git bisect 可 以 将 内 核 测 试 
自动 化 , 也 可 以 监视 虚拟 机 运行 服务 的 状态 。 


@D http://git.kernel.org/cgit/linux/kernel/git/torvalds/linux.git/co 


mmit/?id=e43956e607692f9blc710311e4a6591ffbaledf0 
(3 http://git.kernel.org/cgit/linux/kernel/git/torvalds/linux.git/co 
mmit/?1d=0d8024c6ebadb68f1154377c2e1996b4e649e4c8 
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日 本 UNIX 用 户 协 会 ”http://www.jus.or.jp/ 
法 林 浩 之 (HOURIN Hiroyuki hourin@suplex.grjp) 


jus 走 过 的 30 年 历程 


日 本 UNIX 用 户 协 会 jus 成 立 于 1983 年 6 月 ， 
于 2013 年 5 月 迎 来 了 30 周 年 庆典 。 因 此 ， 这 一 次 
我 们 一 改 以 往 回 大 家 报道 各 种 活动 的 惯例 ， 为 大 
家 介绍 一 下 jus 走 过 的 30 年 历程 。 


成 也 经 过 及 初期 活动 


UNIX 是 在 20 世 纪 70 年 代 后 半期 传人 日 本 的 ， 
当时 还 没有 互联 网 ， 所 以 要 进行 UNIX 信 息 的 交 
流 时 ， 用 户 与 用 户 聚 集 在 一 起 面对面 交谈 是 最 行 
之 有 效 的 交流 方式 。 进 入 80 年 代 ， 伴随 着 UNIX 
机 需 的 出 现 ， 各 用 户 公司 成 立 了 独立 于 销售 商 之 
外 的 UNIX 用 户 团 体 即 jus。 成 立 初期 ， 其 具有 代 
表 性 的 活动 包括 发 布 有 关 UNIX 人 研究 成 有 末 的 UNIX 
专题 讨论 会 以 及 UNIX 机 器 和 软件 展销 会 UNIX 
Fair 等 。 


对 UNIX 和 Internet 发 展 的 贡献 


从 20 世 纪 80 年 代 后 半期 到 90 年 代 初 期 ， 
UNIX 也 开始 被 积极 地 应 用 于 商务 领域 ， 而 jus 作 
为 信息 交流 的 平台 ， 其 存在 的 重要 性 变 得 更 加 不 
可 小 舰 。 特 别 是 UNIX Fair 展销 会 ,对 于 当时 正 
着 手 于 UNIX 计 算 机 生产 和 OS 开发 的 各 家 公司 而 
言 ，UNIX Fair 展 销 会 是 各 家 产品 齐 聚 一 尝 、 相 互 
交流 的 重要 平台 。 在 最 繁盛 时 期 ，jus 会 员 数 达到 
约 2500 人 ，UNIX Fair 展 销 会 的 入 场 人 数 曾 达到 4 
万 余人 。 


另外 , 这 一 时 期 正 处 于 日 本 互联 网 时 代 的 
黎明 期 。 最 初 是 通过 UUCP 在 UNIX 计算 机 之 
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间 建 立 连 接 从 而 形成 了 JUNET(Japan University 
NETwork), 之 后 JUNET 进 一 步 发 展 而 形成 了 
Internet。 当 时 ，UNIX Fair 是 检验 各 个 公司 UNIX 


计算 机 之 间 相 互 连 接 性 的 平台 。 

在 这 之 后 ，jus 继续 涉足 互联 网 技术 ， 参 加 了 
1996 年 开始 的 国际 互联 网 大 会 Internet Conference 
(IC) 以 及 次 年 开始 的 互联 网 周 Internet Week (IW )， 
2008 年 起 又 参加 了 1IPv4 地 址 枯竭 工作 组 。 


图 与 Windows 共 存 

20 世 纪 90 年 代 后 半期 以 后 ， 比 UNIX 计 算 机 
更 廉价 的 、 面 回 Windows 操 作 系 统 的 计算 机 开始 
普及 。UNIX 如 何 与 不 同 架构 的 Windows 实现 共存 ， 
无 论 从 技术 层面 还 是 从 商务 层面 ， 都 成 为 了 一 个 
重要 的 课题 。 这 一 时 期 的 jus 曾 与 Windows 用户 
体 共 同 举办 过 专题 谈论 会 ， 并 开展 了 UNIX Fair 
的 后 继 活动 Network Users’ 等 。 


国 个 人 学 习 并 使 用 UNIX 的 时 代 

继 Windows 普 及 之 后 , 在 UNIX 领 域 也 出 现 
了 运行 在 个 人 计算 机 中 的 Linux 和 FreeBSD， 迎 
来 了 个 人 拥有 UNIX 计 算 机 的 时 代 。 为 了 顺应 这 
样 的 历史 潮流 ，jus 于 1993 年 成 立 了 个 人 计算 机 
环境 研究 会 ， 并 通过 开展 专题 讨论 会 等 活动 ， 为 
PC-UNIX 提 供 了 信息 交流 的 平台 。 

从 1994 年 起 ，jus 开 始 每 月 定期 举办 UNIX 学 
习 会 。 在 那个 年 代 ， 各 种 研究 讨论 会 的 入 场 费 普 
遍 都 是 1 万 多 日 元 ,而 jus 为 了 让 个 人 能 够 在 工作 
之 余 自 费 参 加 UNIX 学 习 ， 破 例 将 入 场 费 定 在 了 
1000 日 元 。20 年 之 后 的 今天 ， 几 乎 每 天 都 在 进行 
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jus 走 过 的 30 年 历程 


着 由 各 种 社团 主办 的 学 习 会 ， 而 jus 则 是 这 些 学 习 
会 引 以 为 聚 的 时 代 先 驱 。 


涉足 UNIX 以 外 的 领域 


园 对 Open Source 的 贡献 

20 世 纪 90 年 代 未 , 开放 源码 的 概念 开始 兴起 。 
迄今 为 止 ，jus 一 直通 过 各 种 活动 与 BSD 和 Linux 
等 团体 保持 着 联系 。 作 为 开源 企业 、 社 团 以 及 用 
户 的 交流 平台 ，jus 分 别 于 1999 年 和 2001 年 举办 
了 开源 大 会 ， 并 于 2002 年 起 开始 与 日 本 关 西 地 区 
的 社团 共同 举办 了 关 西 开源 论坛 。 


国 对 轻 量 语言 社团 的 贡献 

21 世纪 初 以 后 ，jus 与 编程 语言 社团 之 间 的 区 
流 变 得 更 加 频繁 。 之 前 ，jus 一 直通 过 YARPC 等 
活动 与 Perl 和 Ruby 等 社团 保持 着 交流 。 在 此 基础 
之 上 ，PHP 和 了 Python 也 加 入 ， 并 于 2003 年 起 开始 
了 轻 量 语言 (Lightweight Language) 活动 。 除 此 
之 外 的 其 他 语言 团体 也 被 着 和 到 了 这 一 历史 潮流 
之 中 ， 轻 量 语言 活动 作为 盛夏 的 一 项 重要 避 典 一 
直 延 续 至 今 。 


国 对 地 方 社团 的 贡献 

jus 成 立 之 初 便 开始 定期 举办 关 西 UNIX 人 研究 
会 , 为 关 西 地 区 UNIX 社 团 的 形成 做 出 了 贡献 。 
20 世 纪 90 年 代 后 ，jus 又 开始 在 东海 地 区 举办 研 
究 会 。 这 两 项 活动 都 一 直 延 续 到 2005 年 左右 。 
2007 年 起 ， 继 这 两 项 活动 之 后 ，jus 将 举办 研究 会 
的 范围 扩展 到 日 本 全 国 ， 进 一 步 加 强 了 与 各 地 方 
社团 的 交流 。 


2 $ 

jus 近 几 年 的 活动 基本 上 是 固定 不 变 的 , 全 
年 举办 的 活动 有 LL、KOF、IC 和 IW， 定 期 举办 
的 活动 有 学 习 会 和 研究 会 。 除 此 之 外 ,还 有 与 
gadget 社 团 共同 举办 的 Gadgetl 活动 。 从 这 些 活 动 
我 们 可 以 看 出 ， 近 年 来 ， 由 jus 单 独 运营 的 活动 仅 
限于 学 习 会 之 类 ， 与 其 他 社团 的 共同 合作 已 经 开 
台 变 得 不 可 或 缺 。 


总 结 


通过 上 述 回顾 我 们 可 以 知道 ，jus 当初 是 面向 
UNIX 而 成 立 的 团体 ,但 在 历史 的 长 河中 因为 其 
能 够 弹性 地 顺应 时 代 的 需求 ， 灵 活 应 对 各 种 不 断 
涌现 的 新 概念 ， 所 以 才能 顺利 地 发 展 到 今天 。 这 
是 jus 没 有 固 步 日 封 或 固守 某 一 技术 领域 ,积极 主 
动 进取 、 全 力 以 赴 的 结果 。 这 也 是 jus 能 够 持续 走 
过 30 年 历程 的 秘诀 所 在 。 当 然 ， 在 当时 的 历史 条 
件 下 ， 能 够 应 对 各 种 技术 领域 的 团体 只 有 jus， 也 
是 其 中 一 个 因 系 吧 。 

最 近 ， 各 种 社团 已 经 有 能 力 独 立 举办 各 种 活 
动 了 ， 所 以 jus 对 于 社团 本 身 进 行 的 支援 活动 有 所 
减少 。 但 是 我 相信 ，UNIX 相 关 产 品 今后 依然 会 
继续 受到 人 们 的 欢迎 ， 所 以 jus 也 一 定 会 继续 在 这 
里 扮演 好 自己 的 角色 ， 并 做 出 自己 应 有 的 贡献 。 


想到 这 里 ， 让 我 不 蔡 有 些 心潮 注 涯 ， 和 希望 大 家 今 
后 继续 多 多 关注 jus。 
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业 直击 CyberAgent 工程 师 


创造 互联 网 ‘ 人 个 
未 来 mA 


探索 CyberAgent 公司 的 网 络 基础 设施 (前 篇 ) 


采访 /撰文 : 帆 InsightImage “ 川 添 贵 生 (KAWAZOETakao mail@insightimage.jp) 


译 / 王 凤 波 


今年 春天 ，CyberAgent 公 司 构建 了 自己 的 
私有 云 环 境 ， 从 而 为 拓展 新 的 服务 项 目 黄 定 了 坚 
实 基 础 。 我 们 就 CyberAgent 公 司 的 现 有 网 络 环境 、 
当前 所 面临 的 课题 以 及 今后 的 发 展 前 景 ,来访 了 
条 原 雅 和 、 高 桥 哲 平和 村 越 俊 克 这 三 位 工程 师 。 


构建 完全 文 持 IPv6 的 
网 络 基 础 设施 


六 


互联 网 PP 地址 资源 管理 机 构 IANA (Internet 
Assigned Number Authority) 和 IPNIC ( Asia Pacific 
Network Information Centre) 所 掌管 的 IPv4 地 址 
池 资 源 于 2011 年 相继 枯竭 。 最 近 ， 茶 些 电 信 运 
营 商 更 以 耻 v4 地 址 资源 不 足 为 由 ， 将 公有 了 下 地 
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址 的 分 配 列 为 可 选 收费 服务 项 目 。 可 见 ，IPv4 
地 址 资源 的 枯竭 已 经 成 为 一 个 非常 现实 的 问题 。 
IPv6 曾 被 视 为 治本 之 策 而 备 受 期 符 ， 但 是 现实 
情况 却 不 容 乐 观 , 还 很 难说 IPv6 已 经 得 到 了 普及 。 

但 是 ， 对 于 服务 提供 商 而 言 ， 无 论 IPv6 何 
时 正式 投入 使 用 ， 都 要 未 雨 绸 纱 ， 提 前 做 好 准 
备 工作 。 实 际 上 ，CyberAgent 公 司 在 东京 市 内 
的 数据 中 心 为 新 服务 而 构建 的 基础 设施 中 ， 就 
实现 了 对 IPv6 的 全 面 支持 。 


“这 一 次 ， 新 的 数据 中 心 网 络 是 在 完全 支 
持 IPv6 理 念 下 构建 的 。 对 于 还 需 使 用 IPv4 的 部 
分 应 用 ,我 们 采用 了 IPv4 和 IPv6 共 存 的 双 协 
议 栈 ， 除 此 之 外 的 其 他 应 用 基本 上 都 只 采用 了 
IPv6 地 址 。 实 际 上 ， 从 1 年 
前 左右 ， 我 们 就 在 原 有 数据 
中 心 构建 了 IPv6 网 络 环境 进 
行 测试 ， 积累 了 一 宋 的 经 验 ， 
所 以 这 一 次 IPV6 网 络 的 构建 
还 是 很 顺利 的 。”( 德 原 ) 


在 探讨 基础 设施 对 于 
IPv6 文 持 的 问题 时 ， 最 让 
人 头疼 的 是 建成 兼顾 分 配 
IPv4 地 址 与 IPv6 地 址 的 双 
协议 栈 , 还 是 只 分 配 IPv6 
地 址 。 对 此 ，CyberAgent 公 


图 1 CyberAgent 公 司 新 构建 的 网 络 结构 可 以 分 为 提供 一 般 性 服务 的 “本 地 


区 域 ” 和 处 理 高 机 密 性 数据 的 “安全 区 域 ”这 两 个 部 分 


司 制定 的 方针 是 ， 除 了 那些 
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村 越 ( 左 )、 哲 平 (中 )、 乱 原 ( 右 ) 


仅 能 通过 IPv4 进行 通信 的 软件 所 处 的 节点 之 外 ， 
本 上 只 分 配 IPv6 地 址 。 究 其 原因 ， 德 原先 
生 作 了 如 下 阐述 。 


浇 


“原因 有 好 几 方 面 ， 其 中 之 一 就 是 考虑 到 如 
果 分 配 了 IPv4 地 址 ， 就 需要 对 其 进行 管理 ， 从 
而 可 能 无 法 充分 发 挥 IPv6 的 优势 。 如 果 对 IPv4 
地 址 也 进行 管理 ， 就 不 可 避免 地 会 产生 相应 的 
管理 成 本 。 这 次 新 网 络 的 构建 ， 因 为 部 分 服务 
器 不 得 已 而 分 配 了 IPv4 地 址 ， 所 以 还 不 能 说 我 
们 已 经 完全 削减 了 IPv4 的 管理 成 本 。 但 是 ， 我 
们 把 基本 上 只 分 配 和 应 用 IPv6 地 址 作为 了 新 网 
络 构建 的 前 提 条 件 。( 德 原 ) 


IPv6 网 络 构建 中 
出 人 意料 的 盲点 


但 是 ， 据 说 在 IPv6 网 络 的 构建 过 程 中 也 遇 
到 过 令 人 意 想 不 到 的 屏障 。 
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“为 了 实现 路 由 器 的 宛 余 ， 我 们 采用 了 VRRP 
协 议 (Virtual Router Redundancy Protocol),， 但 这 
与 RA (Router Advertisement) 的 兼容 性 发 生 了 冲突 。 
具体 情况 是 ， 当 发 生 故 障 从 主机 切换 到 备 机 再 切 
回 到 主机 时 ， 主 机 下 的 节点 从 主机 路 由 和 备 机 路 
由 都 收 到 了 RA， 因 此 ， 虽 然 已 经 切 回 到 了 主机 ， 
数据 包 还 是 被 发 送 到 了 备 机 路 由 上 。 最 终 ， 我 们 


是 通过 调整 VRRP 的 时 钟 解决 了 这 一 问题 ， 但 是 


在 这 之 前 ， 其 至 到 完成 测试 的 阶段 ， 我 们 都 一 直 


没有 觉察 到 竞 然 会 发 生 这 样 的 问题 ( 夭 原 ) 


天 于 其 他 的 育 点 ， 村 越 匈 生还 列举 了 一 个 
非常 出 人 意料 的 不 文 持 卫 v6 的 例子 。 


“由 于 网 络 设备 对 于 IPv4 的 限制 ， 有 时 系统 
日 志保 存 地 址 或 者 设置 信息 的 导出 地 址 只 能 设置 
IPV4 地址。 网 络 设备 本 身 支持 IPV6， 在 流量 转 
发 功能 上 并 没有 问题 ， 但 是 其 管理 功能 却 不 支持 
IPV6。 这 真是 一 个 让 人 意 想不到 的 盲点 啊 。” 


另外 ， 据 说 外 部 连接 并 没有 采用 了 Pv6 直接 
连接 服务 硕 的 形式 。 对 此 , 哲 平 先生 解释 道 : “我 
们 现在 已 经 做 好 了 随时 都 可 以 发 送 AAAA 记录 
的 准备 ， 但 是 考虑 到 客户 端的 处 理 ， 现 在 尚且 
处 于 静观 其 变 的 状态 , 要 看 今后 的 发 展 情形 而 定 。 

此 次 CyberAgent 公 司 新 构建 的 基础 设施 
已 经 实现 了 对 JPv6 的 全 面 文 持 ， 但 是 关于 原 
有 基础 设施 对 IPv6 的 文 持 , 又 是 如 何 考虑 的 呢 ? 
哲 平 先生 作出 了 这 样 的 回答 :“ 原 有 基础 设施 ， 
现在 是 不 文 持 IPv6 的， 我 想 也 没有 这 个 必要 。 
如 果 将 来 有 一 天 ， 原 有 基础 设施 需要 文 持 IPv6 
的 话 ， 我 认为 直接 构建 一 套 新 的 基础 设施 就 好 
了 。 如 果 强 制 性 地 将 原 有 基础 设施 改建 成 文 持 
IPv6 的 话 ， 可 能 会 发 生 一 些 意 想 不 到 的 问题 ， 
从 这 一 点 来 考虑 ,我 想 如 末 确 实 有 这 方面 需要 ， 
还 是 应 该 重新 构建 一 套 新 的 基础 设施 比较 好 。 

关于 本 次 IPv6 网络 的 构建 ， 德 原先 生 “ 在 
关键 部 分 没有 发 生 任 何 重 大 问题 ”。 由 此 可 见 ， 
虽然 在 ISP 处 理 等 方面 还 存在 着 一 些 不 明了 的 
地 方 ， 但 是 我 们 已 经 可 以 认为 ，IPv6 技 术 现在 
已 经 是 一 种 能 够 为 人 们 所 广泛 应 用 的 技术 。 

下 次 我 们 将 继续 采访 CyberAgent 人 公司， 就 
CyberAgent 公 司 对 未 来 网 络 环境 的 构想 作 进 一 
步 探 讨 。 
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智能 手机 的 普及 

和 安全 状况 
贸 能 手机 近 几 年 得 到 了 十 分 迅速 的 普及 。 
和 传统 手机 不 同 ， 智 能 手机 用 户 自 己 就 可 以 安 
装 软件 ， 十 分 方便 。 不 过 安全 方面 怎么 样 呢 ? 
用 户 随身 带 着 手机 去 到 了 什么 地 方 ， 和 谁 通话 
了 ， 通 讯 录 里 都 有 什么 朋友 等 ， 这 些 私 人 信息 
都 存储 在 手机 里 ， 并 且 ， 应 用 程序 (简称 应 用 ) 
都 可 以 访问 这 些 信 息 。 

恶意 应 用 ， 当 然 也 可 以 访问 这 些 私人 信息 ， 
有 些 恶 意 应 用 目的 就 是 为 了 资 取 联系 人 信息 ， 
日 是 通讯 录 、SNS 这 些 应 用 都 需要 取得 联系 人 
言 息 ， 所 以 从 用 户 的 联系 人 里 读 取信 息 的 应 用 
并 不 能 都 称 作 恶意 软件 ， 有 很 多 应 用 我 们 都 不 
分辨 它 是 为 了 正常 使 用 读 取 联系 人 信息 ， 还 
是 以 盗 取 为 目的 读 取 这 些 信息 。 这 让 用 户 很 担心 。 

这 种 情况 之 下 ，Android 应 用 的 开发 者 能 

够 做 些 什 么 ， 才 能 给 用 户 提 供 “放心 安全 的 应 
用 程序 ” 呢 ? 本 文 将 对 “安全 的 应 用 程序 制作 
方法 ”和 “让 用 户 放 心 的 应 用 程序 发 布 方法 ” 
进行 解说 。 
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人 
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证 
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Google Android 作为 第 
工程 师 的 关注 。 学 习 那 些 积 累 了 丰富 经 验 的 Amdroid 工程 师 分 享 
的 技巧 和 信息 ， 


一 个 移动 设备 的 开源 平台 ， 吸 引 了 很 多 


朝 着 Android 的 世界 大 步 前 进 吧 
文 /谷口 后 TA-SOFT 公 司 
译 / 唐 洪 军 
一 ”安全 应 用 程序 的 
,1 制作 方法 


应 用 里 有 漏洞 的 话 ， 用 户 信息 就 会 被 其 他 
亚 意 应 用 盗 取 或 者 破坏 。 可 异 的 是 ，Android 
官方 文档 里 面 并 没有 约定 的 安全 文档 来 供 程序 

员 人 参考。 日 语 资料 当中 ， 也 只 有 下 面 两 本 书 。 


。《 Android Security: 如 何 制作 安全 的 应 用 程序 济 
(图 1 ) 
。《Android 应 用 的 安全 设计 : 安全 编码 指南 》 
(图 2 ) 


虽然 资料 只 有 这 两 本 ,但 是 反 过 来 说 ， 只 
要 读 懂 这 两 本 书 ， 就 可 以 大 体 掌 握 Android 的 
安全 事项 。 希望 大 家 能 把 这 两 本 书 读 完 ， 不 过 
在 这 里 只 能 先 作 为 参考 资料 介绍 给 大 家 。 本 文 

主要 给 读者 介绍 以 下 三 个 Android 应 用 比较 容 
易 发 生 漏洞 的 地 方 。 


QD) TA-SO OFT 公 司 着 作 Impress JAPAN 出 版 。 
@ 日 本 智能 手机 协会 (JSSEC ) 的 公开 资料 。 
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数据 泄露 ，Android 应 用 


了 图 1《Android Security: 如 何 制 “有 图 2 《Android 应 用 的 安全 设 


作 安 全 的 应 用 程序 》 计 : 安全 编码 指南 》 内 部 生成 的 文件 ， 要 设置 
Androld worsarmt 
Securlty 世 寺 I73 了 一半 T>2AK | 和 个 作 》 
安全 友 了 了 J 儿 一 各 ep 需要 注意 的 是 ， 利 用 
he 外 部 存储 设备 (SD 卡 等 ) 
eben 时 ， 因 为 外 部 存储 设备 的 

特性 ， 即 使 设置 了 文件 的 
读 写 权限 ， 也 还 是 可 以 被 
ie Eee PE 其 他 应 用 读 写 。 所 以 重要 
ee ”| 的 文件 不 要 放 在 外 部 存储 

人 

人 全 webview 的 调 油 

人 全 ft 的 汤 浊 

应 用 为 了 显示 WEB 页 面 ， 经 常用 到 WebView。 
Android 应 用 是 由 多 个 组 件 (Activity, Service， 只 要 给 WebView 指 定好 URL， 就 可 以 像 浏览 器 
BroadcastReciver Content Provider) 一 起 构成 一 样 打开 页 面 , 这 是 一 个 非常 简单 、 便 利 的 组 件 。 
的 。 组 件 之 间 可 以 互相 交换 数据 ， 但 很 多 时 ”但 如 果 WebView 载 人 了 含有 恶意 JavaScript 代 
候 ， 其 他 应 用 的 组 件 也 可 以 访问 组 件 的 内 部 。 ” 码 的 HTML， 一 旦 JavaSceript 被 执行 ,数据 就 
数据 。 会 被 咨 取 。 为 了 避免 类 似 事件 发 生 ， 需 要 注意 


比如 说 ， 只 在 应 用 内 部 使 用 的 Content 
Provider 如 果 被 外 部 应 用 访问 ， 其 他 应 用 就 可 
以 读 取 到 内 部 数据 。 还 有 拨打 电话 时 ， 这 个 
Activity 也 可 能 会 被 外 部 的 应 用 访问 ， 本 来 没 
有 权限 的 应 用 就 能 打 电话 了 。 为 了 避免 这 样 的 
事情 ， 如 果 这 个 组 件 不 需要 被 外 部 应 用 访问 的 
话 ， 应 该 把 AndroidManifest.xml 的 export 设 定 
成 false。 


ft 


重要 文件 如 果 被 其 他 应 用 读 取 ， 就 会 发 生 


以 下 几 点 : 
1. 使 用 WebView 时， 如 无 必要 ， 需 要 把 
JavaScript 设置 成 不 可 执行 。( 默 认 操 作 ) 
2. 使 用 JavaScript 时 ，WebView 里 载 入 的 
HTML 不 要 放 在 可 以 被 其 他 应 用 更 改 的 
地 方 ( 如 外 部 存储 设备 等 )。 
载 入 指定 的 
URL 地 址 ， 并 且 用 HTTPS 协 议 来 通信 。 


3. 使 用 JavaScript 时 ， 只 能 


这 里 讲 的 几 个 漏洞 ， 都 是 比较 常见 且 很 容 
易 被 发 现 的 。 因 为 设计 问题 或 者 一 不 小 心 ， 就 
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工程 师 的 邀请 可 


会 发 生 ， 必 须要 引起 注意 。 


“让 用 户 放心 的 
/应 用 程序 发 布 方法 


智能 手机 里 存储 着 很 多 类 似 用 户 行踪 、 通 
话 记录 的 信息 ， 各 种 应 用 访问 这 些 信息 后 ， 再 
把 这 些 信 息 发 送 到 别 的 地 方 。 然 而 利用 目的 不 
明 ， 没 有 任何 说 明 就 随意 取得 这 些 信 息 的 应 用 
越 来 越 多 ， 这 让 用 户 觉得 很 担心 。 鉴 于 这 种 情 
况 ，2012 年 8 月 ， 日 本 的 总 务 省 颁布 了 了“ 智 角 
手机 隐私 权 保 护 准 则 ”>。 


CC 


智能 手机 隐私 权 保 护 准 
则 的 基本 要 求 

这 个 准则 的 基本 要 求 是 : 每 个 应 用 都 要 制 
定 隐 私 权 政策 ， 在 读 取 一 些 特定 信息 时 ， 还 知 
要 另外 取得 同意 。 大 家 应 该 看 一 下 这 个 准则 ， 
但 实际 上 它 适 用 于 很 多 智能 手机 的 开发 ， 而 且 
不 光 针 对 应 用 的 开发 者 ， 对 移动 通信 商 、OS 
的 开发 公司 、 应 用 介绍 页 面 、 信 息 插 件 的 提供 者 ， 
统统 都 适用 。 所 以 我 们 公司 把 只 针对 Android 
应 用 开发 人 员 的 部 分 “Android 智 能 手机 隐私 
权 保护 准则 by TAO-SOFTWARE ”发 布 在 公 


司 的 网 站 上 ， 大 家 阅读 一 下 这 个 准则 就 可 以 了 
(图 3)。 


入 能 手机 隐私 权 保 护 准则 当中 ， 要 求 那些 
取得 用 户 信 息 、 进 行 外 部 通信 和 存储 的 应 用 ， 
要 做 到 以 下 两 点 : 


(3) http://www.soumu.go.jp/menu news/s-news/01kiban08 02000087. 


html 
(4) http://www.taosoftware.co.jp/android/android privacy policy/ 


有 图 3 《Android 智 能 手机 隐私 保护 准则 》 
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Version 2.0 


夕 才 /7 小包 工 尹 株式 会 社 


1. 制 定 应 用 程序 的 个 人 信息 保护 方案 。 
2. 取 得 重要 信息 时 ， 以 对 话 框 的 形式 告知 
J 


在 说 明 这 两 点 之 前 ， 先 解释 一 下 什么 是 用 
户 信息 。 用 户 信 息 包 括 : 通讯 录 等 第 三 方 信息 、 
用 户 的 通信 服务 记录 、 和 用 户 状 态 相关 的 信息 
等 一 切 与 智能 手机 用 户 相 关 的 所 有 信息 。 它 和 
个 人 信息 保护 法 里 的 个 人 信息 是 不 同 的。 虽然 
用 户 信息 和 个 人 信息 保护 法 有 关联 ， 但 是 因为 
每 个 人 对 于 “个 人 信息 ”的 解释 不 一 样 ， 使 用 
“个 人 信息 ”这 概念 ,会 比较 繁琐 ， 所 以 定义 
了 新 的 概念 “用 户 信息 ”。 


(应 用 程序 的 隐私 权 政策 


做 应 用 就 要 有 应 用 的 隐私 权 政 和 寅 ， 现 在 几 
乎 所 有 公司 的 主页 上 部 有 隐私 权 政 朱 ， 这 个 和 
手机 应 用 的 隐私 权 政 策 是 有 区 别 的 ， 开 发 的 应 
用 如 宁都 使 用 相同 的 隐私 权 政 策 的 话 ， 隐 私 


权 政 策 的 内 容 与 应 用 的 实际 功能 很 可 能 有 出 人 ， 
这 就 有 点 不 准确 了 ， 所 以 每 一 个 应 用 都 必须 有 
目 己 的 隐私 权 政 策 。 另 外 ， 如 果 应 用 里 有 一 些 
应 用 协议 的 话 ， 不 能 把 应 用 协议 和 隐私 权 政策 
写 在 一 起 ， 否 则 会 让 人 难以 理解 ， 最 好 分 成 两 
hs 

隐私 权 政 策 里 , 需要 包含 以 下 8 方面 的 内 容 : 


1. 应 用 的 作者 姓名 或 者 是 公司 名 
包括 开发 该 应 用 的 公司 名 称 和 联络 地 址 等 。 


2. 需 要 得 信息 的 项 目 名 称 
指 的 是 Mail 地 址 ， 电 话 号 码 这 样 具体 的 
项 目 ， 而 不 是 联系 人 信息 那样 广泛 的 定义 。 


3. 取得 方法 
是 应 用 自动 取得 ， 还 是 需要 用 户 输入 。 
4. 明 确 使 用 的 目的 
以 应 用 本 身 的 使 用 为 目的 ， 还 是 应 用 以 
外 (广告 ) 的 使 用 为 目的 ， 还 是 要 把 取得 的 数 
据 提 供给 第 三 方 。 


、 公 布 和 取得 用 户 同 意 的 方法 ， 让 
用 户 参 与 的 方法 
什么 时 候 取 得 用 户 同意 (应 用 启动 的 时 候 ， 
还 是 信息 取得 的 时 候 )， 取 得 用 户 同意 的 方式 
是 以 弹出 对 话 框 的 形式 ， 还 是 没有 对 话 框 。 
用 户 参 与 的 方法 ， 如 果 用 户 想 停止 信息 
被 利用 和 取得 时 ， 应 该 如 何在 应 用 上 操作 。 
应 用 应 该 在 服务 器 端 删 除 相关 的 用 户 信 息 ， 
重要 的 是 用 户 可 以 随时 停止 应 用 取得 自己 的 


人 


转圈 面 面 面 面 面 国 面 面 国 面 国 
ee 


6. 有 没有 外 部 发 送 ， 第 三 方 提供 的 信息 
插件 

“第 三 方 ” 是 指 应 用 作者 以 外 的 ， 
提供 服务 的 公司 以 外 的 人 ， 
包含 的 广告 公司 、 信 息 收 集 的 公司 。 如 需 向 
第 三 方 公司 提供 信息 (大 部 分 都 是 广告 公司 )， 
需要 记录 以 下 的 几 点 内 容 : (使 用 的 收集 信 
息 的 插件 名 称 ， 人 @) 信 息 收 集 播 件 的 作者 名 称 ， 
号 取得 信息 的 项 目 ，@ 则 使 用 目的 ， 加 是否 需 
要 向 第 三 方 提供 信息 。 但 很 多 时 候 ， 有 的 信 
息 连 应 用 开发 人 员 都 不 提供 。 现 在 由 广告 公 
司 协会 来 把 这 些 信 息 汇总 到 方案 里 。 再 过 
段 时 间 ， 日 本 会 颁布 关于 广告 插件 的 隐私 权 
政策 ， 可 以 学 习 一 下 这 个 方案 。 有 一 点 需要 
注意 的 是 ， 使 用 外 国 广告 模块 时 ， 有 些 信息 
是 很 难 汇 总 到 方案 中 的 ， 请 参看 稍 后 要 讲 的 
三 方 模块 使 用 时 的 注意 点 。 


或 交 天 
比如 说 ， 应 用 里 


7. 咨 询 窗 口 
咨询 窗口 的 联系 地 址 。 


8. 隐私 权 政策 更 改 时 的 流程 

如 需 更 改 隐 私 权 政策 ， 经 常 有 很 多 公司 ， 
会 在 主页 上 以 “本 公司 网 站 通知 ”的 方法 来 告 
知 用 户 ， 在 应 用 中 ， 即 使 Web 页 面 有 所 更 改 ， 
用 户 也 很 难 注 意 到 ， 所 以 不 能 使 用 这 种 方法 。 
隐私 权 政 策 中 ， 重 要 部 分 变 改 时 ， 必 须 在 应 用 
内 用 对 话 框 的 形式 来 通知 用 户 。 


男 外 ， 在 总 务 省 的 文件 里 虽然 没有 提 太 ， 
Android 系统 中 ,权限 许可 信息 是 判断 应 用 
特点 的 重要 信息 ， 权 限 许 可 和 利用 的 目的 记 
录 在 方案 中 比较 好 ， 大 家 可 以 通过 下 面 的 
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URL 看 一 下 本 公司 做 成 的 隐私 权 政 策 的 具体 保护 方案 的 链接 (图 6)。 用 户 只 要 一 按 ， 就 可 


实例 。 


隐私 权 政 策 的 实例 


。 tPacketCapture 


以 显示 全 部 个 人 信息 保护 方案 (图 7)。 

另外 ,应 用 在 使 用 过 程 中 ， 有 时 也 需要 看 
一 看 隐私 权 政策 ， 这 时 建议 在 应 用 内 事先 存 
储 好 ， 用 表单 和 “关于 ”对 话 框 的 形式 显示 给 


http://www.taosoftware.co.jp/android/ 用 户 。 


packetcapture/ 
。 tSpyChecker 
http://www.taosoftware.co.jp/ 


android/spychecker/ 


人 全 隐私 权 政策 的 提示 


制定 好 的 隐私 权 政 寅 放 在 什 
么 地 方 ， 是 一 件 非常 重要 的 事情 ， 
它 需 要 满足 以 下 三 个 条 件 。 
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。 应 用 安装 之 前 ， 外 
权 政 策 的 概要 。 


。 应 用 安装 之 前 ， 外 


CE 
RS 
哎 

于 
eg 
心 


权 政 策 。 
。 从 应 用 里 能 够 查看 隐私 权 政 策 。 


隐私 权 政 策 一 般 都 很 长 ， 与 
使 用 规则 差不多 ,一般人 可 能 都 
不 会 认真 阅读 ， 因 此 ， 在 Google 
Play 里 发 布 应 用 时 ， 以 概要 的 形 
式 记 录 在 应 用 的 说 明 栏 里 , 不 失 
为 一 个 好 方法 (图 4)。 

Google Play 里 ， 都 会 有 应 用 
的 隐私 权 政 策 的 URL( 图 $)。 它 
记录 在 应 用 的 说 明 页 里 。 在 应 用 
的 详细 画面 ， 可 以 找到 个 人 信息 


V 图 4 隐私 权 政 策 概 要 的 例子 


隐私 权 政 策 概 要 


本 应 用 程序 需要 对 通讯 录 进 行 备份 ， 因 此 需要 取得 通讯 录 的 全 部 信息 ， 
并 将 其 发 送 至 本 公司 的 服务 喜 。 


这 些 数 据 在 本 应 用 程序 以 外 ， 不 会 以 任何 其 他 目的 被 使 用 ， 应 用 程序 里 
不 含有 广告 ， 也 不 会 向 广告 公司 发 送 数据 。 


隐私 权 政 策 的 详细 信息 ， 请 
packetcapture/#privacy_policy 
信息 的 隐私 权 政 策 页 。 


过 http://www.taosoftware.co.jp/android/ 
行 


查阅 ， 通 过 此 URL 可 以 跳 转 到 开发 者 


通 
进 


图 5 Google Play Developer Console 上 的 登录 画面 


隐私 权 政 策 “ 

如 果 您 要 为 此 应 用 提供 隐私 权 政 策 网 址 ， 请 在 下 面 输 入 。 

指向 隐私 权 政 策 的 链接 http:// 

网 暂 不 提交 隐私 权 政策 网 址 。 了 解 详 情 


本 
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YY 图 6 应 用 详细 页 面 的 隐私 权 
政策 链接 V 图 7 扣 击 之 后 的 提示 


关于 微 信 


返回 ” ”使 用 条 款 和 隐私 政策 


6 腾讯 微 信 软 件 许可 及 服务 协议 
微 信 5.0.3.1 【首部 及 导言 】 
欢迎 您 使 用 腾讯 微 信 软件 及 服务 ! 


为 使 用 腾讯 微 信 软 件 ( 以 下 简称 “本 软件 ") 及 服务 ， 您 
应 当 阅 读 并 遵守 《腾讯 微 信 软 件 许可 及 服务 协议 》( 以 
下 简称 “本 协议 " ) ， 以 及 《腾讯 服务 协议 》 和 《QQ 号 码 
规则 》。 请 您 务必 审慎 阅读 、 充 分 理解 各 条 款 内 容 ， 特 
别 是 免除 或 者 限制 责任 的 条 款 ， 以 及 开通 或 使 用 某 项 服 
务 的 单独 协议 ， 并 选择 接受 或 不 接受 。 限 制 、 免 责 条 款 


可 能 以 加 粗 形式 提示 您 注意 。 
帮助 与 反馈 
除非 您 已 阅读 并 接受 本 协议 所 有 条 款 ， 否 则 您 无 权 下 
新 版 更 新 载 、 安 装 或 使 用 本 软件 及 相关 服务 。 您 的 下 载 、 安 装 、 
使 用 、 获 取 微 信 帐 号 、 登 录 等 行为 即 视 为 您 已 阅读 并 同 
意 上 述 协 议 的 约束 。 


如 果 您 未 满 18 周 岁 ， 请 在 法 定 监护 人 的 陪同 下 阅读 本 协 
使 用 条 款 和 隐私 政策 议 及 其 他 上 述 协 议 ， 并 特别 注意 未 成 年 人 使 用 条 款 。 
腾讯 公司 版 权 所 有 


Copyright © 2011-2013 Tencent. 
All Rights Reserved. © 
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“中 国 移动 


Wy Extreme Call Blocker Dr... 


装 此 应 用 吗 ? 它 将 获得 以 下 方面 的 


隐私 相关 权限 


SA_， 读 取 手机 状态 和 身份 
直接 拨打 电话 号 码 
鲁 这 可 能 会 产生 费用 。 
重新 设置 外 拨 电 话 的 路 径 
(0) 编辑 您 的 文字 讯息 ( 短信 或 彩信 ) 记 住 我 的 选择 
读 取 您 的 文字 讯息 ( 短信 或 彩信 ) 
发 送 短信 
鲁 这 可 能 会 产生 费用 . 
接收 文字 讯息 (短信 ) 


3) 


san& ， 读 取 您 的 联系 人 
读 取 通话 记录 
写 入 通话 记录 
取消 


冲 
焙 


《全 同意 取得 的 对 话 杠 


取得 重要 数据 的 时 候 ， 必 须要 征 得 用 户 同 
意 ，Andriod 应 用 安装 的 时 候 ， 应 该 显示 权限 
请 求 的 确认 页 面 。( 见 图 8) 

一 定 要 注意 的 一 点 是 ， 并 不 是 按 了 
并 下 载 ” 按 钮 ， 就 等 于 同意 可 以 随意 取得 用 户 
数据 了 。 因 为 ,具体 的 利用 目的 ， 疝 外 部 通讯 
的 有 无 ， 是 否 会 把 信息 提供 给 第 三 方 并 没有 明 
确 写 出 来 ， 到 底 同 意 了 什么 ， 说 得 并 不 清 
需要 获得 用 户 同意 时 ， 应 该 像 图 9 那样 ， 在 应 
用 内 部 , 用 弹出 对 话 框 的 形式 详细 地 说 明之 后 ， 
才能 获得 用 户 的 同意 。 

到 底 是 否 需 要 以 弹出 对 话 框 的 形式 来 取得 
用 户 的 同意 ,一 般 基 于 以 下 两 点 来 判断 : 


| 司 ; 
[二 
LDO 


1. 用 户 信 息 
2. 用户 信息 


的 性 质 和 种 类 
的 利用 目的 


V 图 9 弹出 对 话 框 示例 


i em DD 


第 1 条 说 的 是 ， 利 用 个 人 信 
居 以 及 个 人 识别 度 较 高 的 用 户 信 
息 时 ,需要 单独 取得 同音 。 人 简单 
地 说 ， 就 是 个 人 信息 和 能 够 确定 
个 人 信息 的 信息 ， 如 姓名 、 年 龄 、 
通讯 录 等 ， 或 者 用 户 上 自己 很 难 更 
改 的 ， 比 如 说 IMEI 或 者 Android 
TD 


jt 全 dl B21:38 


360 手 机 助手 正在 尝试 读 取 联 系 人 数据 


第 2 条 说 的 是 ， 用 户 很 清楚 
通讯 录 应 用 取得 联系 人 的 信息 是 
为 了 应 用 自身 的 功能 但是， 用 
户 很 难 理解 ， 应 用 以 广告 、 掌 握 
用 户 使 用 情况 这 样 的 目的 取得 自 
己 的 信息 。 所 以 ， 除 自 喘 功 
能 需要 以 外 ， 想 取得 用 户 信 息 时 ， 就 需要 得 到 
用 户 的 单独 同意 。 

需要 强调 的 是 ， 利 用 IMEI、Android ID 和 
应 用 本 刁 功 能 以 外 ， 即 便 是 很 微小 的 信息 ， 都 

需要 得 到 用 户 的 单独 同意 


把 权限 的 请 求 范围 
尽 可 能 地 缩小 

隐私 权 政策 和 取得 用 户 同 意 的 对 话 框 是 
很 重要 的 ， 但 在 Android 系统 中 ， 因 权限 不 同 ， 
y 用 能 做 的 事情 是 不 一 样 的 。 有 取得 联系 人 信 
息 权 限 的 应 用 ， 还 是 没有 取得 权限 的 应 用 ， 哪 
一 个 更 让 人 放心 呢 ? 当然 是 没有 权限 的 那个 
应 用 。 

Google Play 的 应 用 之 中 ,获得 本 身 不 必 
要 权限 的 应 用 有 很 多 。 其 原因 是 开发 时 ， 参 考 
了 需要 取得 权限 的 既 存 功能 ， 或 参考 的 信息 本 
身 就 有 错 目 没有 及 时 发 现 ， 或 者 根本 没有 好 好 
理解 ， 使 用 的 是 类 库 的 API 等 。 


如 何 发 布 放心 安全 的 Android 应 用 用 上 第 38 占 上 振 


J 


4 


resen ted by Japan 


p 2 日 
RNvww.android- Android 
group.jpl 
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工程 师 的 邀请 可 


所 以 ， 请 务必 把 权限 的 请 求 范围 控制 在 目 
己 需要 的 最 小 范 于 内 。 


人 全 使 用 第 = 方 模块 时 的 注意 点 


最 后 , 要 注意 一 下 应 用 里 面 别 人 做 的 东西 ， 
以 前 发 生 过 因为 Facebook SDK 有 漏洞 ,导致 
所 有 使 用 了 Facebook SDK 的 应 用 都 具有 同样 
漏洞 的 事件 。 如 果 有 源 代码 的 话 ， 一 定 要 看 一 
看 源 代码 。 男 外 ， 虽 然 几 乎 所 有 的 广告 插件 都 
没有 代码 ， 但 有 一 些 广告 插件 具有 恶意 应 用 的 
功能 ， 一 且 植 人 了 这 样 的 广告 插件 ， 这 款 应 用 
也 会 被 认为 是 恶意 应 用 。 一 般 来 说 ， 给 PC 买 
软件 的 时 候 ， 如 果 感 染 了 病毒 ， 软 件 开 发 公司 
必须 得 承担 责任 。 同 样 ， 如 果 发 布 了 含有 病毒 
的 应 用 ， 应 用 的 开发 公司 肯定 是 有 责任 的 ， 因 
为 它 给 很 多 客户 带 来 了 麻烦 。 

很 多 广告 应 用 都 是 要 取得 用 户 信息 的 。 得 
到 越 多 的 用 户 信息 , 广告 收入 带 来 的 收益 就 越 大 。 
虽然 广告 收益 是 比较 重要 的 收入 来 源 ， 但 那 种 
乱七八糟 的 广告 模块 还 是 不 要 使 用 为 好 。 


的 


i 2 

发 布 放心 安全 的 应 用 ， 是 很 费 工 夫 的 。 有 
时 会 听 到 这 样 的 说 法 :“ 只 是 想 单 纯 地 开发 一 
个 应 用 ”, “担心 一 旦 告诉 用 户 应 用 需要 取得 哪 
些 用 户 信息 , 用 户 一 害怕 , 就 不 用 你 的 应 用 了 ”。 


谷口 岳 (Tao Software 公司 CEO) 


Android 应 用 漏洞 诊断 
Web 服务 


Tao RiskFinder 


LE 
a 


如 同 刚 才 讲 的 使 用 第 三 方 插件 ， 现 在 安 卓 应 
用 开发 所 用 的 类 库 , 很 多 也 包 仿 外 部 插件 。 这 种 
情况 下 很 可 能 无 意 间 就 使 用 了 ， 如 许可 证 书 有 
问题 ， 就 可 能 使 用 了 危险 的 插件 。 男 外 ，Android 
应 用 的 漏洞 是 比较 大 的 问题 ， 定 制 Andriod 应 用 的 
公司 ,很 难 发 现 来 历 不 明 的 插件 或 漏洞 。 基 于 此 ， 
本 公司 开发 了 漏洞 检查 工具 Tao RiskFinder， 现 在 
还 仅 限 于 公司 团体 使 用 ， 但 是 如 果 对 此 有 兴趣 的 
个 人 ,， 也 可 以 党 斌 使用， 这 款 应 用 将 来 要 做 成 个 
人 开发 者 也 能 使 用 的 形式 ， 和 希望 这 个 举措 能 让 现 
在 的 应 用 变 得 更 完善 。 


Tao RiskFinder 
http://www.taosoftware.co.jp/services/riskfinder/ 
index.html 


Risk ) Finder 


但 笔者 认为 ， 做 了 东西 让 别人 用 ， 不 管 能 不 能 
得 到 报酬 ， 开 发 者 郡 是 有 责任 的 。 不 要 做 那 种 
会 给 用 户 齐 来 嘛 烦 的 、 有 漏洞 的 软件 。 邦 外 ， 
写 一 些 对 目 己 不 利 的 东西 ， 可 能 的 确 让 人 有 所 
抵触 ， 但 如 果真 的 党 得 上 自己 做 的 东西 很 重要 的 
话 ， 惑 不 要 有 所 隐瞒 ， 等 特 正 正 地 发 布 吧 ! 


Android 05 发 布 之 后 ， 就 开始 从 事 Android 的 应 用 开发 ， 并 不 
到 专业 开发 Android 的 公司 ， 从 事 委 托 开 发 和 顾问 的 工作 。 


上 用 BLOG 和 演讲 的 形式 ， 进 行 Android 的 推广 宣传 活动 。 现 在 转 职 


温 故 知 新 


IT 的 古老 传说 


O809/0D-9 
/6829 MMU 


6809 (MC6809) 是 摩托 罗 
拉 公 司 (如 今 的 飞 思 卡尔 ) 于 
1979 年 继 6800(MC6800) 之 后 
推出 的 、 拥 有 丰富 寻 址 模式 的 
8 位 CPUP, 它 具 备 与 C 语 言 
中 *P++ 和 *--P 相 类 似 的 指令 。 

由 于 6809 有 着 非 常 强 大 
的 寻 址 模式 , 使 得 用 汇编 程 
序 编写 位 置 无 关 代 人 码 (Position 
Independent Code ) 变 得 非常 容 
易 。 程 序 代 码 附 近 的 常量 按照 
PC (程序 计数 器 ) 相对 寻 址 模 
式 访 问 ， 顶 数 中 的 本 地 变量 存 
储 在 栈 中 ， 按 照 堆栈 指标 相对 
寻 址 模式 访问 。 由 操作 系统 创 
建 的 {用 于 全 局 变量 的 ) 数据 
存储 空间 的 开始 位 置 ， 将 在 创 
建 进程 之 时 存放 于 UD 寄存 带 (用 
户 栈 指标 ) 中 ， 所 以 按照 口 寄 
存 器 相对 寻 址 模式 访问 ( 栈 空 
间 也 是 创建 进程 之 时 由 操作 系 


中 当时 被 称 为 “终极 8 人 yy CPU”。 


竹 由 疝 三 


统 创建 的 )。 通 过 编写 这 样 的 
程序 ， 可 自动 实现 独立 进程 间 
的 可 重信 (reentrant), 多 个 进程 
之 间 可 以 共享 内 存 中 的 同一 段 
二 进 制 代码 。 

6809 虽然 是 8 位 机 ， 但 是 
如 上 所 述 ， 因 其 具备 强大 的 寄 
存 顺 相对 寻 址 功能 ， 所 以 使 得 
使 用 汇编 程序 编写 代码 变 得 训 
不 站 力 。 


Say 6809 与 
7 OS-9 


大 约 在 1980 年 以 后 ， 出 现 
了 与 6809 对 应 的 操作 系统 ， 即 
OS-9( 之 后 被 称 为 OS-9/6809)。 
该 OS-9 操 作 系 统 是 在 参考 
UNIX 的 基础 上 ,使 用 6809 汇 编 
程序 编写 的 多 用 户 多 任务 操作 
系统 , 包括 Levell 和 Level2 两 
个 版 本 。Levell 运行 在 不 需要 特 
殊 硬件 支持 的 64 位 内 存 空 间 中 。 
Leve2 运行 在 配备 有 6809 外 置 
MMU (具体 请 参照 下 文 ) 的 便 
件 之 上 。OS-9 Level2 是 以 映射 
售 (Mapper) 为 前 提 的 ， 而 OS-9 


TAKEOKA Shouzou take@takeoka.net 译 / 王 风波 


Levell 则 是 在 没有 这 种 地 址 转 
换 结构 的 硬件 下 实现 多 任务 处 
理 的 ， 所 以 在 可 执行 二 进 制 代 
码 的 处 理 上 下 了 很 大 的 功夫 。 


YX Os-9 
Si Level1 


为 OS-9 Levell 是 运行 
在 8 位 CPU 即 6809 的 64KB 空 
间 中 (包括 VO 在 内 )， 所 以 其 
模块 化 实现 得 比较 彻底 ,设备 
驱动 以 及 重要 的 系统 功能 也 都 
实现 了 模块 化 。 大 部 分 系统 模 
块 都 被 称 为 “管理 器 "” ， 并 被 命 
名 为 “xxxman”。 虽 然 内 存 空 
间 狭 小 ， 但 是 因为 OS-9 Levell 
不 读 取 那些 不 必要 的 模块 ， 所 
以 即使 是 结构 非常 简单 的 模块 
也 能 够 确保 正常 运行 。 

OS-9 是 参考 UNIX 编 写 而 
成 的 ， 所 以 其 访问 控制 也 全 部 
是 通过 文件 访问 权限 来 实现 的 。 
它 的 任务 与 UNIX 一 样 被 称 为 
“进程 ”， 进 程 之 间 的 通信 是 通 
过 与 UNIX 类 似 的 管道 PIPE 来 
实现 的 。PIPE 通 过 pipeman 来 


,3 
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实现 ， 并 通过 上 层 IOMan 与 文 
件 一 起 实现 统一 化 管理 。OS-9 
的 命令 行 也 实现 了 与 UNIX 
shell 一 样 的 语法 ， 从 而 确保 了 
可 以 使 用 “>” “< “人 等 
语法 进行 IO 重 定 回 ， 并 使 进程 
输入 输出 连接 的 建立 成 为 可 能 。 

OS-9 要 求 可 执行 二 进 制 代 
码 中 的 位 置 无 关 代 码 (PIC) 程 
序 。 位 置 无 关 代 码 无 论 在 内 存 
中 的 任何 位 置 执行 都 能 够 确保 
程序 的 正常 运行 。 男 外 ，OS-9 
的 进程 代码 还 同时 要 求实 现 可 
重信 性 (Reentrancy )。 

应 用 于 OS-9 的 BASIC 语 言 
和 C 语 言 编译 融 因 为 推出 的 时 
间 较 早 , 所 以 没有 什么 特别 问题 。 
关于 那些 不 文 持 OS-9 的 编译 右 
以 及 汇编 源 代码 ， 因 UU 寄存 带 
作为 临时 存储 (scratch pad) 使 
用 得 非常 频繁 ， 并且 人 允许 全 局 
变量 的 访问 直接 载 人 变量 地 址 ， 
所 以 事实 上 这 些 编译 一 以 及 汇 
编 源 代码 未 能 得 到 广泛 应 用 。 


9S-9 的 节约 精神 主要 还 是 
体现 在 创建 进程 时 查找 可 执行 
二 进 制 代 码 上 。 在 OS-9/6089 
中 ， 并 没有 对 于 执行 结束 后 的 
程序 代码 进行 管理 ， 而 是 将 其 
作为 堆 空 间 的 备用 空间 而 置 之 
不 理 。OS-9 会 在 某 一 进程 开始 
时 ， 首 先 以 字 有 为 单位 扫描 所 


有 内 存 空间 ， 查 找 二 进 制 代码 
的 首部 ， 然 后 根据 该 首部 对 二 
进 制 代码 的 所 有 和 字 市 进行 CRC 
(循环 元 余 校 验 码 ) 计算 。 如 果 
该 CRC 值 正确 ， 也 就 是 说 奢 该 
二 进 制 代 码 在 内 存 中 未 遭 到 损 
坏 ， 且 正好 是 所 需要 的 二 进 制 
代码 ， 则 重复 使 用 。 如 采 内 存 
中 未 查找 到 所 需要 的 二 进 制 代 
码 ， 则 从 文件 系统 将 二 进 制 代 
码 载 人 到 内 存 中 。 

上 次 为 大 家 介绍 的 MP/M 
是 由 载 人 需 在 载 人 内 存 时 执行 
PRL (Page Relocatable ) 格式 的 
地 址 解析 ， 而 OS-9 则 采用 位 
置 无 关 代 码 PIC， 在 执行 之 前 
便 完成 了 对 于 地 址 的 计算 。 


OX 
CN 6829 MMU 
曾经 有 一 款 6809 配 套 的 摩 
托 罗 拉 标 准 产 品 ， 即 MMU (存储 
管理 需 ，Memory Management 
Unit)， 这 是 一 种 大 规模 集成 电 
路 (LSI)， 被 称 为 6829。6829 
只 进行 内 存 上 映射 (以 页 面 为 单 
位 进行 地 址 转换 )， 不 能 检测 
出 未 载 入 的 页 面 。6829 以 多 任 
务 页 面 切换 为 前 提 ， 不 同 页 面 
使 用 不 同 内 存 上 映射 ， 从 而 避免 
任务 之 间 的 内 存 冲 突 。 

为 了 正确 执行 上 述 处 理 ， 
6829 的 控制 寄存 硕 不 能 被 用 户 
程序 所 操控 。 另 外 ， 欣 制 由 操 
作 系 统 转移 至 用 户 任 务 时 ， 也 


同时 需要 将 操作 系统 的 内 存 映 
射 切换 至 用 户 任 务 的 内 存 映 射 。 
为 了 正确 实现 这 地 点 ，6829 配 
备 了 一 个 叫做 fuse register 的 寄 
存 顺 ， 在 控制 即将 由 操作 系统 
转交 给 用 户 任务 之 前 ， 操 作 系 
统 会 在 fuse register 寄 存 硕 中 设 
置 一 个 计时 时 间 ， 当 经 过 这 一 
计时 时 间 时 ，6829 的 内 存 映射 
便 发 生 转 换 ， 从 而 实现 无 法 再 
继续 访问 控制 寄存 痊 。 

接 下 来 则 需要 等 到 发 生 中 
岂 之 时 (包括 软 中 汤 ) 才 能 转 
换 为 操作 系统 内 存 映射 ， 并 对 
控制 寄存 带 进 行 操作 。 这 是 纯 
粹 的 配备 有 6829 MMU 的 6809 
系统 ， 而 OS-9 Level2 则 多 运行 
于 那些 未 配备 6829 而 使 用 了 专 
有 MMU (映射 硕 ) 的 系统 之 上 。 
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关于 OS-9/6809, 在 其 成 熟 
期 曾 运 行 于 富士 通 FM-11、FM- 
7/8、 日 立 MB-S1 等 在 日 本 非 
常 流行 的 计算 机 上 , 在 美国 也 
运行 于 TRS80 Color Computer 
(CoCo ) 等 比较 廉价 的 计算 机 
上 , 因此 了 解 OS-9/6809 的 人 
应 该 不 在 少数 。 

关 于 OS-9/68000, 也 推 
出 过 用 于 没有 配备 MMU 的 
68000 之 上 的 版 本 ， 曾 运行 于 
夏普 X68000 之 上 ,另外 还 
长 期 应 用 于 CD-i 等 系统 之 上 。 


看 元 了 


如 果 您 对 本 书 内 容 有 疑问 ， 可 发 邮件 至 contact@turingbook.com， 会 有 编辑 或 作 译 者 协助 
答疑 。 也 可 访问 图 灵 社 区 ， 参 与 本 书 讨论 。 


如 果 是 有 关 电 子 书 的 建议 或 问题 ， 请 联系 专用 客服 邮箱 : ebook@turingbook.com。 
在 这 里 可 以 找到 我 们 : 


微 博 @ 图 灵 教 育 : 好 书 、 活 动 每 日 播报 

微 博 @ 图 灵 社 区 : 电子 书 和 好 文章 的 消息 

微 博 @ 图 灵 新 知 : 图 灵 教 育 的 科普 小 组 

微 信 图 灵 访 谈 : ituring_interview， 讲 述 码 农 精 彩 人 生 
微 信 图 灵 教 育 : turingbooks 


